🎢 불균형 데이터 분석(ROSE package, ovunsample() / rose()

2 minute read

🔵 불균형 데이터 분석 (분류모형)

실무에서 일하다보면, 예측변수의 클래스가 적은 경우다 흔하다고 한다. 물론 나의 경우 분류 분석보다는 시계열 분석을 많이 하다보니 조금 다른 에로사항이 있긴 했지만, 이러한 경우가 흔하기 때문에 분석에 큰 차질이 있을 수 있다. 왜냐하면, 한쪽으로 치우친 unbalanced한 데이터는 모형을 구축했을 때, 편향된 성향을 갖게 되기 때문이다. 즉 가중치의 문제이다. 이러한 점은 여러 분야에서 큰 문제가 될 수 있는데, 해당 분야가 바로 신용카드와 의료와 같은 분야이다. 예를 들어서 신용카드의 경우 매년 약 2%가 도용된다고 하며, 질병검사에 있어서 희귀병 발병률이 0.4%에 불과하다. 따라서 이러한 데이터로 모형을 구축했을 경우, 신용카드를 도용했지만 또는 희귀병에 걸렸지만, 구축한 모형이 판단했을 때, 그렇지 않다는 결론을 이끌어 낼 수 있기 때문이다. 즉 이 부분은 확실히 예측모형과는 다른 에로사항인 것 같다. 따라서 이러한 부분을 보완하기 위해서 몇 가지 방법론이 존재하는데, 오늘은 이를 이야기해보고자 한다.

아무것도 대응하지 않는다.
Oversampling
Undersampling
소수 표본 데이터를 조합해서 생성
알고리즘으로 클래스 데이터를 미세 조정한다.
- 클래스 가중치를 조정하던가
- 컷오브 기준을 조정(클래스 구분 기준을 조정)
- 소수 표본 데이터에 좀더 민감하게 반응하도록 알고리즘을 조정한다.

이러한 방법들이 존재한다.

오늘은 불균형 데이터 분석 예시로 많이 활용되는 ROSE 패키지의 hacide 데이터를 이용해보자

install.packages("ROSE")
library(ROSE) 
data(hacide)

해당 패키지 안에 ovun.sample이란 함수를 통해서 위에서 언급한 sampling을 진행할 수 있다.

공식문서에 따르면 ovun.sample 함수는 다음과 같이 사용할 수 있다고 한다.

name.function	method
Ovun.sample	Over-sampling, under-sampling, combination of over- and undersampling.

Usage

ovun.sample(formula, data, method="both", N,p=0.5,
            subset=options("subset")$subset,
            na.action=options("na.action")$na.action, seed)

formula: 예측할 변수 R에서 권장하는 식의 형태로 넣어준다

data: 사용할 데이터를 넣어준다

method: c("over", "under", "both") 중 하나를 선택해서 넣어준다. 이때 over는 oversample, under는 undersample, both는 양쪽(클래스 둘 다 램덤으로)을 뽑는다로 생각하면 되겠다.

N: 원하는 데이터의 크기이다. 이때 주의점이 있는데, 해당 부분은 공식문서를 참고하길 바란다.

나머지 인자 또는 옵션도 사용방법이 어렵지 않기 때문에 공식문서를 참고하기 바란다.

https://cran.r-project.org/web/packages/ROSE/ROSE.pdf

중요한건 ovun.sample함수를 사용하면 결과값이 리스트 형태이다.

oversampling  <- ovun.sample(cls ~ ., data = hacide.train, method = "over", N = 1960)

class(oversampling)
[1] "ovun.sample"

class(oversampling[1])
[1] "list"

따라서 $를 활용하여 데이터만 뽑아주자. 어차피 이건만 사용할 거니까.

oversampling  <- ovun.sample(cls ~ ., data = hacide.train, method = "over", N = 1960)$data
class(oversampling)
[1] "data.frame"

그렇기 때문에 $data를 사용하면 data.frame 형태로 class가 출력됨을 알 수 있다.

# OverSampling
oversampling  <- ovun.sample(cls ~ ., data = hacide.train, method = "over", N = 1960)$data
# UnderSampling
undersampling <- ovun.sample(cls ~ ., data = hacide.train, method = "under", N = 40, seed = 1)$data
# BothSampling
bothsampling <- ovun.sample(cls ~ ., data = hacide.train, method = "both", p = 0.5, N = 1000, seed = 1)$data
# ROSESampling
rose <- ROSE(cls ~ ., data = hacide.train)$data

# 나무 모형
raw   <- rpart(cls ~ ., data = hacide.train) # 아무것도 안함
over  <- rpart(cls ~ ., data = oversampling) # oversample 
under <- rpart(cls ~ ., data = undersampling) # undersample
both  <- rpart(cls ~ ., data = bothsampling) # both
rose  <- rpart(cls ~ ., data = rose) # rosesample

# 예측
pred_raw    <- predict(raw  , newdata = hacide.test)
pred_over   <- predict(over , newdata = hacide.test)
pred_under  <- predict(under, newdata = hacide.test)
pred_both   <- predict(both , newdata = hacide.test)
pred_rose   <- predict(rose , newdata = hacide.test)


# AUC 넓이 (1에 가까울수록 좋은 모형)
roc.curve(hacide.test$cls, pred_raw[,2], plot=FALSE) # 0.600
roc.curve(hacide.test$cls, pred_over[,2], plot=FALSE) # 0.798
roc.curve(hacide.test$cls, pred_under[,2], plot=FALSE) # 0.924
roc.curve(hacide.test$cls, pred_both[,2], plot=FALSE) # 0.798
roc.curve(hacide.test$cls, pred_rose[,2], plot=FALSE) # 0.985
# 
# 
# 

참고로 roc.curve는 ROSE 패키지 내에 존재한다. 실제 test 데이터와 예측 데이터를 비교하는 것이다. plot을 TRUE로 바꾸면 plot을 그릴 수 있다.

ROSE 패키지의 ovun.sample() 잊지말자. under, over, both를 선택하거나, rose()함수를 사용하면 된다.

Share on

Twitter Facebook LinkedIn

Park Jun Kyu

🎢 불균형 데이터 분석(ROSE package, ovunsample() / rose()

🔵 불균형 데이터 분석 (분류모형)

Share on

You may also enjoy

📌 파일시스템

📌 가상메모리

Viewbinding

📌 CPU 스케줄러(Scheduler)3 & 병행제어1