[기계학습의 이해]중고차 가격 예측 및 사이트 추천
[기계학습의 이해] 수업에서 ‘중고차 가격 예측 및 사이트 추천’를 진행하게 됐다.
수업소개
기계학습의이해 [UNDERSTANDING OF MACHINE LEARNING]
프로젝트
프로젝트는 총 4명으로 진행됐다.
주제부터 탐색하였는데 주제를 고르는 것이 상당히 어려웠다.
이미 있는 데이터(공공데이터 등)으로는 하고싶은 것이 생각이 나지않았다.
그러다 중고차의 수요가 날이 갈수록 커지고 현대차에서도 중고차 시장에 진입했다는 옛 뉴스가 기억이 났다.
중고차 가격 예측 및 사이트 추천
제공되는 데이터는 존재하지않았지만 직접 사이트를 크롤링하여 데이터를 수집할 수 있다고 생각하여 주제를 선정했다.
그러나 중고차 가격이 구체적으로 어떻게 책정되는지는 판매자와 구매자 모두 알기 어렵다.
(중고차딜러의 안 좋은 이미지가 이 결과가 아닐까라는 생각이 든다.)
저희 조의 분석 목적은 국산 중고차의 차량 정보와 보험처리이력 등이 주어졌을 때, 중고차 거래 사이트 중 어떤 사이트에 판매하면 가장 이득을 볼 수 있을지 계산하여 예측하는 것으로 구체적인 주제를 선정했다.
예측 모델을 이용하면 중고차 판매자가 어떤 사이트에 판매해야 유리한지 판단할 수 있으며, 그 판매가는 얼마 정도가 될지 예측할 수 있다는 기대효과가 존재한다.
예측 대상이 되는 사이트는 엔카, KB차차차, 보배드림으로 총 3개이다. 해당 사이트들을 고른 이유는 타 사이트에 비해 등록대수가 많아 학습시킬 데이터가 충분하기 때문이다.
사이트명 | 전체 등록대수 |
---|---|
엔카 | 163,204 |
KB차차차 | 143,046 |
보배드림 | 49,476 |
K Car | 9,049 |
현대글로비스 오토벨 | 1,227 |
2. 데이터 소개
-
데이터 출처
- 웹크롤링을 수행하여 3개 사이트의 국산차 데이터를 수집할 계획이다.
- 보배드림 사이트 내에서 현재 거래되고 있는 국산차 데이터를 수집하였다.
-
변수 설정
- 차량 정보와 옵션을 모두 합치면 80개 이상의 변수를 찾을 수 있다.엔카, KB차차차, 보배드림 3개 사이트에서 공개하는 차량 정보에 차이가 존재한다.
- 3개 사이트에서 공통적으로 수집할 수 있는 유의미한 변수를 정리하면 아래와 같다.
- 기본 정보: 가격, 차종, 연식, 배기량, 주행거리, 색상, 변속기, 연료
- 차량 옵션: 선루프, LED헤드램프, 어댑티드헤드램프, 가죽시트, 열선시트, 통풍시트, 후방센서, 스마트키, 네비게이션
- 보험처리이력: 전손유무, 소유자 이전 횟수, 침수유무
- 가격을 예측변수로, 이하 변수들을 설명변수로 하여 데이터를 수집하였다.
- 차량 옵션의 유무는 중고차 판매가 변동에 큰 영향을 미치므로 설명변수로 추가했다.
- 그랜져 기준, 하단 옵션이 추가될 때마다 판매가가 상승하는 것을 볼 수 있다.
- 차량이 해당 옵션을 갖고 있으면 1, 아니면 0의 값을 갖도록 크롤링 하였다.
- 보험처리이력은 구매자가 거래 시 많이 참고하는 지표이므로 설명변수로 추가하였다.
- 차량이 전손유무, 침수유무가 있으면 1, 아니면 0의 값을 갖도록 크롤링 하였습니다.
- 차량의 소유주 변경 횟수를 크롤링 하였다.
-
데이터 설명
-
데이터 크기
- 1732 rows × 22 columns
-
예측 변수
- 중고차 판매가: 실제 구매자와 거래하는 중고차 판매 가격
-
설명 변수
💡 연속형 변수 - 주행거리, 배기량 범주형 변수 - 위 2개와 가격을 제외한 모든 변수
-
기본 정보
-
브랜드: 자동차 제조 회사명
GM대우 KG모빌리티 기아 대우 르노삼성 르노코리아 쉐보레 쌍용 제네시스 현대 -
차종: 자동차의 모델명
-
연식: 자동차가 제작된 해
-
배기량: 엔진이 한 번 돌아갈 때 소비되는 가스의 양, 엔진의 주요 성능지표
-
주행거리: 실제로 자동차를 운행한 거리
-
색상: 자동차의 색상
검정색 갈색 기타 노란색 녹색 분홍색 빨간색 주황색 자주색 파란색 회색 흰색 -
변속기: 동력원의 동력을 속도나 환경에 맞추어 필요한 회전력으로 바꾸는 장치
-
연료: 자동차가 운행될 수 있도록 에너지를 방출하는 물질
가솔린 디젤 LPG 가솔린 하이브리드 전기 수소 가솔린/LPG겸용 기타
-
-
차량 옵션
선루프 LED헤드램프 어댑티드헤드램프 가죽시트 열선시트(앞좌석) 통풍시트 후방센서 스마트키 네비게이션(순정) 네비게이션(비순정) -
보험처리이력
- 전손유무: 차량의 파손 정도가 매우 심하여 ‘전손처리’된 이력의 유무
- 소유자 이전 횟수: 차량의 실 소유주가 변경된 횟수
- 침수유무: 차량이 침수 피해를 입어 파손된 이력의 유무
-
-
3. 데이터 전처리 과정
💡 전처리 단계: 웹사이트 → 크롤링을 통한 데이터 수집 → 데이터 전처리
-
예측 변수
- ‘가격’ 열에서 결측치가 존재하는 행을 제거하였다.
- ‘가격’ 열에서 ’판매완료’, ’상담’으로 기록된 행을 제거하였다.
- ‘가격’ 변수는 수치형 변수이므로 숫자형 데이터로 변환하였다.
-
설명 변수
- ‘연식’ 변수의 서식을 YYYY.MM으로 변환하였다.
- ‘배기량’ 변수는 수치형 변수이므로 숫자형 데이터로 변환하였다.
- ‘주행거리’ 변수는 수치형 변수이므로 숫자형 데이터로 변환하였다.
- ‘색상’ 변수 중 유사한 색끼리는 묶어 주었다.
- 흰색: 흰색, 진주색, 진주투톤
- 회색: 회색, 진회색, 은색
- 파란색: 파란색, 청색, 청옥색, 하늘색, 남색, 은하늘색, 진청색
- 검정색: 검정색, 검정투톤
- 노란색: 노란색, 베이지색, 금색, 연금색
- 자주색: 자주색, 보라색
- 범주형 변수 중 색상, 변속기, 연료 변수에 레이블 인코딩을 수행하였다.
- ‘차종’ 열을 첫 공백을 기준으로 ‘브랜드’와 ‘차종’ 열로 분할하였다.
-
결측치 처리
-
보배드림 사이트에 판매글을 게시한 중고차 딜러가 해당 차량에 옵션이 없을 경우 아예 기재하지 않는 경우가 있기 때문에, 차량 옵션 변수 중 결측치가 존재하면 0으로 대체하였다.
-
모든 열에 대해 결측치가 없는 것을 확인하였다. (데이터 완결성)
-
-
이상치 확인
-
아래 변수를 Boxplot으로 시각화한 결과 이상치를 발견하여 수정하였습니다.
-
가격에 대한 Boxplot
-
주행거리에 대한 Boxplot
-
-
가격 30,000,000만원 → 3,000만원
-
가격 630,000만원 → 630만원
-
주행거리 2,322,500km → 232,000km
-
4. 데이터 시각화
추후 업데이트 예정입니다.
- 엔카, KB차차차 웹크롤링을 통한 데이터 수집
- 기계학습 모델 데이터 학습