우리는 범주로 구성되어 있는 자료를 분석할 때 흔히 더미화(원핫인코딩) 등을 통해 자료를 변화시킨다. 과연 이러한 더미화는 모델링에서 어떤 영향을 미칠까? 회귀모델에서의 더미화 회귀분석에서 주로 얘기되는 더미화는 해당 범주별로 y절편인 beta0를 다르게 주려고 사용한다. 예를 들어 회귀분석을 통해 몸무게를 예측할 때 성별이라는 변수가 고려되었다고 한다면, 다른 변수들의 기울기는 모두 같게 나타나지만, 성별이 남자일 때 beta0에 남성의 weight만큼 더해지고, 성별이 여성일 때 beta0에 여성의 weight 만큼 더해져 좀 더 정교하게 예측하게 된다. 트리모델에서의 더미화 Tree기반 모델에서는 과연 더미화는 어떤 역할을 할까? Tree 기반 모델에서는 더미화가 오히려 성능에 악영향을 주는경우가 ..