본문 바로가기

Data Analysis2

[Rstudio] 결측값을 처리하는 다중 대치법(imputation) 결측값은 자료에 종종 나타나는 현상이다. 이를 처리하는 방법에는 크게 3가지가 있다. 해당 레코드를 제외(삭제)한다. 해당 변수의 대표값(평균값 또는 확률값)으로 대체한다. 이웃 변수들과의 관계를 이용한 다중대치법을 사용한다. 그러나 결측값의 분포가 넓은 경우, 방법1은 통계적 타당성에 문제가 있으며, 방법2는 통계량의 표준오차가 과소추정되는 문제가 발생할 수 있다. 가장 효율적인 것은 방법3인 imputation이다. Rstudio에는 imputation을 자동으로 처리해 주는 여러 패키지가 있다. 여기서는 Amelia 패키지를 이용해 결측값을 처리해보았다. 원천 데이터 'freetrade'의 일부를 head(freedata)로 확인해본 결과 결측값이 빈번하게 확인된다. m : 가상의 데이터셋을 몇 개.. 2019. 5. 9.
데이터 전처리 플랫폼 'AIMMO'에서 알바해보기! 오랜 친구를 오랜만에 만나 회사에 대한 푸념을 듣던 중, 친구의 친척분께서 IT 회사를 런칭했다는 소식을 듣게 되었다. 어떤 회사인고 하니, 기계학습에 필요한 정제 데이터를 생산해주는 'AIMMO(ai + ammunition)'라는 회사였다. Classification이나 Regession처럼 모델이 유동적이지 않은 지도학습 분야에서는 특히나 새로운 데이터의 질적 수준이 중요한 이슈이다. 필자가 H사 프로젝트에서 데이터 정제를 노가다로 하면서 직접 경험한 바에 의해서도... 아직까지 전처리 과정에서 수작업이 너무나 많이 요구된다. 이러한 불필요한 노동을 줄여주는 플랫폼이 개발중이라니 환영 환영 大환영이 아닐 수 없다...!!! 에이모에서는 모델의 성능을 검증하는 과정에서 수작업이 필요한 부분에 누구나 참.. 2018. 11. 27.