수학/확률과 통계

[확률/통계] Multinomial Logistic Regression 이해하기 (3) - Logit (Log-Odds)란 무엇인가

HANNE10 2024. 8. 29. 20:01
728x90

 

 

Logit (Log-Odds) 란 무엇인가?

Logit(Log-Odds)이란 Odds자연로그(Log) 를 취한 값을 말한다.
여기서 Odds는 어떤 사건이 발생할 확률과 발생하지 않을 확률의 비율을 의미한다.

1. Odds와 Log-Odds의 정의

  • Odds는 다음과 같은 수식으로 표현할 수 있다:
    p:probability
    Odds=p1p
  • Logit은 Odds에 자연 로그를 취한 값으로, 다음과 같이 정의한다.
    Logit(p)=ln(p1p)

2. 예시를 통한 이해

축구 경기를 예로 들어 보자. 한 팀이 10번의 경기 중 6번 이기고 4번 졌다고 가정할 때,
이 팀이 이길 확률 p는 다음과 같다:
p=610=0.6

이 팀이 이길 Odds는 다음과 같이 계산된다:
Odds=p1p=0.610.6=0.60.4=1.5

따라서, 이 팀의 Log-Odds는:
Logit(p)=ln(1.5)0.405

3. Logit의 특성과 범위

Logit 함수는 확률 p의 범위 [0,1]을 무한대의 범위 [,+]로 확장한다.
이는 Logit 함수의 그래프에서도 확인할 수 있다:

  • p=0.5 일때, Logit 값은 0이 된다.
  • p가 0에 가까워지면 Logit 값은 음의 무한대 ()로 간다.
  • p가 1에 가까워지면 Logit 값은 양의 무한대 (+)로 간다.

파이썬으로 그린 Logit 함수 그래프

 

4. Logit의 활용: Logistic Regression

Logit 함수는 Logistic Regression에서 중요한 역할을 한다.
Logistic Regression은 선형 회귀의 확장된 형태로, 이진 분류 문제를 해결하기 위해 사용된다.

  • 선형 회귀를 사용하여 확률 p를 직접 모델링하려고 하면, 예측 결과가 [0,1] 범위를 벗어날 수 있다.
  • Logit 변환을 사용하여 확률을 Odds의 자연 로그로 변환하면,  [,+]의 범위를 가지게 되어 선형 회귀 모델을 적용할 수 있다.

Logistic Regression은 독립 변수들의 선형 결합을 Odds의 로그(Logit) 형태로 변환한 다음,
그 결과를 시그모이드 함수를 통해 확률로 변환하는 과정을 따른다.

Logit 변환: 독립 변수의 선형 결합을 통해 Logit 값을 계산한다. 이는 log-odds로 해석될 수 있다.
Logit(p)=ln(p1p)=β0+β1x1+β2x2++βnxn

여기서:

  • x1,x2,,xn 은 독립 변수들
  • β1,β2,,βn  은 회귀 계수들

 

그리고 Logistic Regression 및 Logit과 Sigmoid 관계에 대해서는 다음 Part 에서 좀 더 자세히 다뤄보겠다.

5. 결론

Logit 함수는 확률을 선형적으로 변환하여 Logistic Regression에서 안정적인 모델링을 가능하게 한다.
이는 특히 이진 분류 문제(예: 성공/실패, 스팸/정상 이메일 분류 등)에서 유용하게 사용된다.

참고자료

 

로짓(Logit) 이란?

haje01의 노트

haje01.github.io