Logistic Regression 다시 보기

CTR 예측의 baseline을 정할 때 후보는 많다. Gradient Boosting, Neural Network, 그리고 Logistic Regression. 이 중 LR은 여전히 자주 baseline 자리에 선택된다. 오래된 모델이 그 자리에 있는 데에는 이유가 있다.

이 글은 그 이유를 원리부터 본다. LR이 무엇이고, 왜 이 자리에 자주 선택되는지.

세 가지 특성

Logistic Regression이 오랫동안 CTR 예측의 baseline 자리를 지켜온 이유는 세 가지로 요약된다.

경량. 모델이 벡터 내적 한 번이다. 학습도, 인퍼런스도, 피처 수에 선형.

해석 가능. 계수 하나하나가 “이 피처가 결과에 얼마나 기여하는가"를 직접 말해준다.

확률 출력. 0과 1 사이의 값을 출력한다. 광고에서는 입찰가를 곱할 때 그대로 쓰인다.

이하 본문은 이 셋이 왜 “구조적으로” LR에 붙어 있는지 설명한다.

선형에서 시그모이드로

Logistic Regression을 가장 빠르게 이해하는 방법은 선형 회귀에서 출발하는 것이다.

선형 회귀는 입력의 가중합을 출력한다.

$$ z = w \cdot x + b $$

문제는 $z$가 실수 전체를 범위로 갖는다는 점이다. CTR 같은 확률을 내놓으려면 출력이 0과 1 사이여야 한다. 선형 회귀는 그걸 보장하지 않는다.

시그모이드 함수가 이 문제를 해결한다.

$$ \sigma(z) = \frac{1}{1 + e^{-z}} $$

시그모이드는 실수 전체를 $(0, 1)$ 구간으로 부드럽게 압축한다. 입력이 아무리 커져도 1에 수렴하고, 아무리 작아져도 0에 수렴한다. 선형 회귀의 출력을 시그모이드에 통과시키면 확률이 된다.

이 단순한 합성이 Logistic Regression의 전부다. 선형 모델 + 확률 출력.

주목할 점 하나. 확률 출력은 비선형이지만, decision boundary, 즉 확률 0.5를 기준으로 양쪽을 나누는 경계는 여전히 선형이다. $w \cdot x + b = 0$ 이라는 초평면이 그대로 경계가 된다. LR은 “선형 분류기에 확률을 결합한 모델"이다.

log-loss

모델 구조가 정해졌다면, 학습은 “좋은 $w$와 $b$를 찾는 일"이다. 기준이 필요하다.

선형 회귀는 MSE를 쓴다. 그런데 LR은 쓰지 않는다. 왜 그런가.

LR의 출력은 확률이다. 확률 모델의 손실에는 더 적합한 선택이 있다. log-loss (또는 cross-entropy).

$$ L = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log \hat{y}_i + (1 - y_i) \log (1 - \hat{y}_i) \right] $$

정답이 1일 때는 $\log \hat{y}$가 커질수록 손실이 줄고, 정답이 0일 때는 $\log(1 - \hat{y})$가 커질수록 손실이 준다. 확률 예측이 정답과 가까워질수록 손실은 0에 수렴한다.

log-loss는 LR에 대해 convex하다. 지역 최적점에 빠지지 않는다. 전역 최적으로 수렴할 수 있다는 뜻이다. 이 성질이 LR을 대규모 데이터에서 빠르게 학습시킬 수 있는 수학적 근거다.

세 가지 특성의 구조적 이유

앞서 정리한 세 가지 특성, 경량, 해석 가능, 확률 출력은 위 구조에서 그대로 따라 나온다.

경량

학습된 LR 모델은 결국 가중치 벡터 $w$와 편향 $b$ 한 쌍이다. 인퍼런스는 내적 한 번과 시그모이드 한 번. 피처가 백만 개든 천만 개든, 연산량은 피처 수에 선형이다. 트리 앙상블이나 신경망의 수많은 곱셈과 비선형 연산과는 비교할 수 없이 가볍다.

해석 가능

계수 $w_i$는 “피처 $i$가 1만큼 증가할 때 log-odds가 $w_i$만큼 변한다"는 뜻이다. 부호는 방향, 크기는 영향력을 말해준다. 광고 도메인에서 “어떤 피처가 클릭에 긍정적으로 작용하는가"를 알고 싶을 때, LR은 계수표 하나로 대답한다. 현업의 설명 책임에 적합하다.

확률 출력

많은 분류기는 ranking용 score만 출력한다. LR은 calibrated probability를 출력한다. 광고의 기대값 계산은 이 숫자를 그대로 곱할 수 있어야 한다. 예측 CTR × 입찰가 = 기대 수익. probability가 아닌 score는 입찰 공식에 바로 들어가지 못한다.

CTR 예측 적용

CTR 예측이라는 문제에는 세 가지 특성이 있다.

희소. 피처 대부분은 one-hot 인코딩된 카테고리다. 수백만 차원 중 몇 개만 1이고 나머지는 0이다.

고차원. 광고, 사용자, 컨텍스트의 조합은 수백만에서 수억 단위로 퍼진다.

대규모. 학습 데이터는 일 단위로 대량 축적된다.

LR은 이 세 특성과 정확히 맞물린다. 희소 벡터의 내적은 non-zero 항목만 계산하면 되므로 피처 차원이 커도 연산은 실제 값이 있는 수에 비례한다. 학습은 SGD 계열로 분산이 쉽다. 인퍼런스는 실시간 입찰의 타이트한 지연 예산 안에 들어간다.

CTR 모델을 처음 올리는 상황에서 이 특성들이 결정적으로 작용한다. baseline을 빠르게 세우고, 학습 파이프라인, 서빙, 모니터링까지 전체 lifecycle을 먼저 검증하는 것이 우선이다. 복잡한 모델로는 그 검증 자체가 지연된다.

한계와 다음 단계

LR이 이 자리에 있는 이유를 봤으니, 떠나는 이유도 함께 봐야 한다.

가장 큰 한계는 비선형 상호작용의 부재다. 피처들끼리의 곱, 조건부 효과, 복잡한 결합을 LR은 스스로 발견하지 못한다. 사람이 feature engineering으로 미리 정의해야 한다. 피처 조합이 많아질수록 엔지니어링 비용은 커지고, 운영은 피처 설계 리뷰에 묶인다.

그래서 언제 넘어가는가. 데이터와 운영 여력이 “피처 엔지니어링으로 감당할 수 없는 지점"에 이를 때. Gradient Boosting Decision Tree는 상호작용을 스스로 학습한다. 신경망은 더 나아가 embedding으로 고차원 카테고리를 연속 벡터로 변환한다. 두 방향 모두 LR의 한계를 정확히 겨냥한다.

다만 시작점은 여전히 LR이 합리적이다. baseline 없이 복잡한 모델부터 올리면, 무엇이 모델의 기여이고 무엇이 파이프라인의 기여인지 구분할 수 없다. LR이 준 숫자가 이후 모든 비교의 기준선이 된다.

마무리

오래된 모델을 고른 데에는 이유가 있었다.

그 이유는 구조에 있다. 선형 모델과 시그모이드의 합성, log-loss의 convex성, 희소·고차원에서의 가벼움. 세 가지가 합쳐져 LR은 CTR 예측의 baseline으로 오래 유지되고 있다.

다음 모델로 넘어갈 때가 오더라도, LR이 준 숫자는 baseline으로 남는다.

세 가지 특성#

선형에서 시그모이드로#

log-loss#

세 가지 특성의 구조적 이유#

경량#

해석 가능#

확률 출력#

CTR 예측 적용#

한계와 다음 단계#

마무리#