통계 및 인공지능

트리모델과 더미화

cj92 2021. 2. 28. 23:19

우리는 범주로 구성되어 있는 자료를 분석할 때 흔히 더미화(원핫인코딩) 등을 통해 자료를 변화시킨다.

 

과연 이러한 더미화는 모델링에서 어떤 영향을 미칠까?

 

회귀모델에서의 더미화

 

회귀분석에서 주로 얘기되는 더미화는 해당 범주별로 y절편인 beta0를 다르게 주려고 사용한다.

 

예를 들어 회귀분석을 통해 몸무게를 예측할 때 성별이라는 변수가 고려되었다고 한다면,

 

다른 변수들의 기울기는 모두 같게 나타나지만, 성별이 남자일 때 beta0에 남성의 weight만큼 더해지고,

 

성별이 여성일 때 beta0에 여성의 weight 만큼 더해져 좀 더 정교하게 예측하게 된다. 

 

 

트리모델에서의 더미화

 

Tree기반 모델에서는 과연 더미화는 어떤 역할을 할까?

 

Tree 기반 모델에서는 더미화가 오히려 성능에 악영향을 주는경우가 종종 발생한다.

 

트리모델에서는 범주별로 이진화를 하게 되는데 만약 더미화를 하게되면,

 

범주별로 변수처럼 인식하게 되므로 True, False 단  두가지로 분류되게 된다.

 

즉, 이 경우 더미화를 하게됨으로써 덜 정교하게 예측하게 된다. 

 

물론 절대적인 얘기는 아니다. 다만 자료를 희소하게 만들 수 있다는 것이다.

 

다만 모델링에서 더미화를 할지 말지는 모델에 따라 고민이 필요하다는 것이다.