Don Don - ADMM example

scaled dual ADMM algorithm

Given x, z and , to some initial value.
Repeat:
- $x := \arg max_{x} (f (x) + \frac{ρ}{2} ∥ A x + B z - c + μ ∥_{2}^{2})$
- $x := \arg max_{x} (g (z) + \frac{ρ}{2} ∥ A x + B z - c + μ ∥_{2}^{2})$
- $μ := μ + (A x + B z - c)$
- Stopping criterion : quit $∥ r ∥_{2} < ϵ$ and $∥ s ∥_{2} < ϵ$

Stopping criterion

We can define the primal and dual residuals in ADMM at step k+1.
* Primal residuals : $r^{k + 1} = A x^{k + 1} + B z^{k + 1} - c$
* Dual residuals : $s^{k + 1} = ρ A^{T} B (z^{k + 1} - z^{k})$

Therefore stopping criterion satisfies that $∥ r ∥_{2}$ and $∥ s ∥_{2}$ are smaller than any $ϵ$

Lasso example

$\begin{aligned} \underset{β}{minimize} & \sum_{i = 1}^{n} (y_{i} - β_{0} - x_{i}^{t} β)^{2} + λ \sum_{j = 1}^{p} | β_{j} | \end{aligned}$

$\Leftrightarrow$

$\begin{aligned} \underset{β}{minimize} & f (β) + f (z) \\ subject to & I β - I Z = 0 \end{aligned}$

$\begin{aligned} r = I β - I Z \\ L_{ρ} (β, z, v) & = f (β) + g (z) + v^{t} r + \frac{ρ}{2} | | r | |_{2}^{2} \\ = f (β) + g (z) + \frac{ρ}{2} | | r + \frac{1}{ρ} v | |_{2}^{2} - \frac{ρ}{2} | | v | |_{2}^{2} \\ = f (β) + g (z) + \frac{ρ}{2} | | r + μ | |_{2}^{2} - c o n s t a n t_{v}, μ = \frac{1}{ρ} v \end{aligned}$

$\begin{aligned} β^{k + 1} & := \underset{β}{argmin} (f (β) + \frac{ρ}{2} | | I β - I Z^{k} + μ^{k} | |_{2}^{2}) \\ = \underset{β}{argmin} (y - X β)^{t} (y - X β) + \frac{ρ}{2} | | I β - I Z^{k} + μ^{k} | |_{2}^{2}) \\ \Rightarrow - 2 X^{t} y + 2 X^{t} X β + ρ β - ρ Z^{k} + ρ μ^{k} = 0 \\ \Leftrightarrow (2 X^{t} X + ρ I) β = 2 X^{t} y + ρ (Z^{k} - μ^{k}) \\ ∴ β^{k + 1} = (2 X^{t} X + ρ I)^{- 1} (2 X^{t} y + ρ (Z^{k} - μ^{k})) \end{aligned}$

The prox operatior for $g (z) = λ | | z | |_{1}$

$\begin{aligned} p r o x_{λ, g} (z) & = \underset{v}{argmin} (λ | | z | |_{1} + \frac{1}{2} | | z - v | |_{2}^{2}) \\ = \underset{v}{argmin} (| | v | |_{1} + \frac{1}{2 \cdot λ} | | z - v | |_{2}^{2}) \\ ∴ \underset{v_{i}}{argmin} (\frac{1}{2} (v_{i} - z_{i})^{2} + λ | v_{i} |) \end{aligned}$

$\begin{aligned} Z^{k + 1} & := \underset{Z}{argmin} (g (Z) + \frac{ρ}{2} | | I β^{k + 1} - I Z + μ^{k} | |_{2}^{2}) \\ = \underset{Z}{argmin} (g (Z) + \frac{ρ}{2} | | β^{k + 1} + μ^{k} - Z) | |_{2}^{2} \\ = \underset{Z}{argmin} (g (Z) + \frac{1}{2 \cdot \frac{1}{ρ}} | | β^{k + 1} + μ^{k} - Z) | |_{2}^{2} \\ ∴ p r o x_{\frac{1}{ρ}, g} (β^{k + 1} + μ^{k}) \end{aligned}$

Given $β$ , $z$ , $μ$ , $ρ$ to some initial value
Repeat:
- $∴ β^{k + 1} = (2 X^{t} X + ρ I)^{- 1} (2 X^{t} y + ρ (Z^{k} - μ^{k}))$
- $∴ Z^{k + 1} = p r o x_{\frac{1}{ρ}, g} (β^{k + 1} + μ^{k})$
- $μ^{k + 1} := μ^{k} + (β^{k + 1} - Z^{k + 1})$
- Stopping criterion : quit $∥ r ∥_{2} < ϵ$ and $∥ s ∥_{2} < ϵ$

prime resdual : $r^{k + 1} = β^{k + 1} - z^{k + 1}$
dual resdual : $s^{k+1} = -(z^{k+1} - z^k) $

R code

nll <- function(X, Y, beta) {
                A <- Y - X %*% beta
                loglike <- crossprod(A)
                return(loglike)
}

# Proximal operator
prox.l1 <- function(u, lambda) {
                uhat <- abs(u) - lambda
                prox <- sign(u) * pmax(rep(0, length(u)), uhat)
                return(prox)
}

l2norm <- function(x) sqrt(sum(x^2))


ADMM <- function(X,Y,rho=5,lambda=.1,iter=100, eps = 0.0001){
                
                n <- nrow(X)
                p <- ncol(X)
                
                beta <- matrix(0, nrow=iter, ncol=p) 
                beta[1,] <- rep(0, p)
                
                obj <- rep(0, iter)
                obj[1] <- nll(X, Y, beta[1,]) + lambda * sum(abs(beta[1,]))
                
                z <- matrix(0, nrow=iter, ncol=p)
                v <- rep(0, p)     
                
                invmat <- solve(2*crossprod(X) + diag(rho, p))
                
                s <- 0    
                r <- 0    
                t <- 0
                
                for (t in 2:iter){
                                
                                beta[t,] <- invmat %*% (2*crossprod(X, Y) + rho * (z[t-1,]-v))
                                z[t,] <- prox.l1(beta[t,] + v, lambda/rho)
                                v <- v + beta[t,] - z[t,]
                                obj[t] <- nll(X, Y, beta[t,]) + lambda * sum(abs(beta[t,]))
                                
                                r <- beta[t,] - z[t,]
                                s <- -rho * (z[t,] - z[t-1,])
                                
                                r.norm <- l2norm(r)
                                s.norm <- l2norm(s)
                                
                                if (r.norm < eps & s.norm < eps) {
                                                break
                                }
                }
                beta <- beta[-c(t+1:iter),]
                obj <- obj[-c(t+1:iter)]
                result <- list("beta.hat" = beta[nrow(beta),], "beta"=beta, "objective"=obj, "iter"=t)
                return(result)
}

x <- cbind(1, matrix(rnorm(1000*4), ncol = 4))
beta <- c(1.4, -2, -3, 4, 5)

eps <- rnorm(1000*1)　
y <- x%*%beta + eps 

ADMM(X = x, Y = y)

$beta.hat
[1]  1.379323 -1.990279 -2.998234  4.018089  5.044086

$beta
         [,1]      [,2]      [,3]     [,4]     [,5]
[1,] 0.000000  0.000000  0.000000 0.000000 0.000000
[2,] 1.376414 -1.985059 -2.991330 4.008202 5.031837
[3,] 1.379269 -1.990212 -2.998172 4.018014 5.044009
[4,] 1.379323 -1.990278 -2.998234 4.018089 5.044086
[5,] 1.379323 -1.990279 -2.998234 4.018089 5.044086

$objective
[1] 58940.123  1022.952  1022.613  1022.613  1022.613

$iter
[1] 5

Citation

BibTeX citation:

@online{don2021,
  author = {Don, Don and Don, Don},
  title = {ADMM Example},
  date = {2021-05-30},
  url = {https://dondonkim.netlify.app/posts/2021-06-12-admm/admm.html},
  langid = {en}
}

For attribution, please cite this work as:

Don, Don, and Don Don. 2021. “ADMM Example.” May 30, 2021. https://dondonkim.netlify.app/posts/2021-06-12-admm/admm.html.