3 minute read


Used Car Sales: Pre-owned car companies look at upstaging new car sales in  FY21, ET Auto

[기계학습의 이해] 수업에서 ‘중고차 가격 예측 및 사이트 추천’를 진행하게 됐다.

수업소개

기계학습의이해 [UNDERSTANDING OF MACHINE LEARNING]

image-20240325211456870

프로젝트

프로젝트는 총 4명으로 진행됐다.

image-20240325212046781

주제부터 탐색하였는데 주제를 고르는 것이 상당히 어려웠다.

이미 있는 데이터(공공데이터 등)으로는 하고싶은 것이 생각이 나지않았다.

그러다 중고차의 수요가 날이 갈수록 커지고 현대차에서도 중고차 시장에 진입했다는 옛 뉴스가 기억이 났다.

중고차 가격 예측 및 사이트 추천

image-20240325211802489

제공되는 데이터는 존재하지않았지만 직접 사이트를 크롤링하여 데이터를 수집할 수 있다고 생각하여 주제를 선정했다.

그러나 중고차 가격이 구체적으로 어떻게 책정되는지는 판매자와 구매자 모두 알기 어렵다.

(중고차딜러의 안 좋은 이미지가 이 결과가 아닐까라는 생각이 든다.)

저희 조의 분석 목적은 국산 중고차의 차량 정보와 보험처리이력 등이 주어졌을 때, 중고차 거래 사이트 중 어떤 사이트에 판매하면 가장 이득을 볼 수 있을지 계산하여 예측하는 것으로 구체적인 주제를 선정했다.

예측 모델을 이용하면 중고차 판매자가 어떤 사이트에 판매해야 유리한지 판단할 수 있으며, 그 판매가는 얼마 정도가 될지 예측할 수 있다는 기대효과가 존재한다.

예측 대상이 되는 사이트는 엔카, KB차차차, 보배드림으로 총 3개이다. 해당 사이트들을 고른 이유는 타 사이트에 비해 등록대수가 많아 학습시킬 데이터가 충분하기 때문이다.

사이트명 전체 등록대수
엔카 163,204
KB차차차 143,046
보배드림 49,476
K Car 9,049
현대글로비스 오토벨 1,227

2. 데이터 소개

  1. 데이터 출처

    • 웹크롤링을 수행하여 3개 사이트의 국산차 데이터를 수집할 계획이다.
    • 보배드림 사이트 내에서 현재 거래되고 있는 국산차 데이터를 수집하였다.
  2. 변수 설정

    • 차량 정보와 옵션을 모두 합치면 80개 이상의 변수를 찾을 수 있다.엔카, KB차차차, 보배드림 3개 사이트에서 공개하는 차량 정보에 차이가 존재한다.
    • 3개 사이트에서 공통적으로 수집할 수 있는 유의미한 변수를 정리하면 아래와 같다.
      • 기본 정보: 가격, 차종, 연식, 배기량, 주행거리, 색상, 변속기, 연료
      • 차량 옵션: 선루프, LED헤드램프, 어댑티드헤드램프, 가죽시트, 열선시트, 통풍시트, 후방센서, 스마트키, 네비게이션
      • 보험처리이력: 전손유무, 소유자 이전 횟수, 침수유무
      • 가격을 예측변수로, 이하 변수들을 설명변수로 하여 데이터를 수집하였다.
    • 차량 옵션의 유무는 중고차 판매가 변동에 큰 영향을 미치므로 설명변수로 추가했다.
      • 그랜져 기준, 하단 옵션이 추가될 때마다 판매가가 상승하는 것을 볼 수 있다.
      • 차량이 해당 옵션을 갖고 있으면 1, 아니면 0의 값을 갖도록 크롤링 하였다.
    • 보험처리이력은 구매자가 거래 시 많이 참고하는 지표이므로 설명변수로 추가하였다.
      • 차량이 전손유무, 침수유무가 있으면 1, 아니면 0의 값을 갖도록 크롤링 하였습니다.
      • 차량의 소유주 변경 횟수를 크롤링 하였다.
  3. 데이터 설명

    • 데이터 크기

      • 1732 rows × 22 columns
    • 예측 변수

      • 중고차 판매가: 실제 구매자와 거래하는 중고차 판매 가격
    • 설명 변수

      💡 연속형 변수 - 주행거리, 배기량 범주형 변수 - 위 2개와 가격을 제외한 모든 변수

      • 기본 정보

        • 브랜드: 자동차 제조 회사명

          GM대우 KG모빌리티 기아 대우
          르노삼성 르노코리아 쉐보레 쌍용
          제네시스 현대    
        • 차종: 자동차의 모델명

        • 연식: 자동차가 제작된 해

        • 배기량: 엔진이 한 번 돌아갈 때 소비되는 가스의 양, 엔진의 주요 성능지표

        • 주행거리: 실제로 자동차를 운행한 거리

        • 색상: 자동차의 색상

          검정색 갈색 기타 노란색
          녹색 분홍색 빨간색 주황색
          자주색 파란색 회색 흰색
        • 변속기: 동력원의 동력을 속도나 환경에 맞추어 필요한 회전력으로 바꾸는 장치

        • 연료: 자동차가 운행될 수 있도록 에너지를 방출하는 물질

          가솔린 디젤 LPG 가솔린 하이브리드
          전기 수소 가솔린/LPG겸용 기타
      • 차량 옵션

        선루프 LED헤드램프 어댑티드헤드램프 가죽시트
        열선시트(앞좌석) 통풍시트 후방센서 스마트키
        네비게이션(순정) 네비게이션(비순정)    
      • 보험처리이력

        • 전손유무: 차량의 파손 정도가 매우 심하여 ‘전손처리’된 이력의 유무
        • 소유자 이전 횟수: 차량의 실 소유주가 변경된 횟수
        • 침수유무: 차량이 침수 피해를 입어 파손된 이력의 유무

3. 데이터 전처리 과정

💡 전처리 단계: 웹사이트 → 크롤링을 통한 데이터 수집 → 데이터 전처리

image-20240325212331380

image-20240325212347281

  • 예측 변수

    • ‘가격’ 열에서 결측치가 존재하는 행을 제거하였다.
    • ‘가격’ 열에서 ’판매완료’, ’상담’으로 기록된 행을 제거하였다.
    • ‘가격’ 변수는 수치형 변수이므로 숫자형 데이터로 변환하였다.
  • 설명 변수

    • ‘연식’ 변수의 서식을 YYYY.MM으로 변환하였다.
    • ‘배기량’ 변수는 수치형 변수이므로 숫자형 데이터로 변환하였다.
    • ‘주행거리’ 변수는 수치형 변수이므로 숫자형 데이터로 변환하였다.
    • ‘색상’ 변수 중 유사한 색끼리는 묶어 주었다.
      • 흰색: 흰색, 진주색, 진주투톤
      • 회색: 회색, 진회색, 은색
      • 파란색: 파란색, 청색, 청옥색, 하늘색, 남색, 은하늘색, 진청색
      • 검정색: 검정색, 검정투톤
      • 노란색: 노란색, 베이지색, 금색, 연금색
      • 자주색: 자주색, 보라색
    • 범주형 변수 중 색상, 변속기, 연료 변수에 레이블 인코딩을 수행하였다.
    • ‘차종’ 열을 첫 공백을 기준으로 ‘브랜드’와 ‘차종’ 열로 분할하였다.
  • 결측치 처리

    • 보배드림 사이트에 판매글을 게시한 중고차 딜러가 해당 차량에 옵션이 없을 경우 아예 기재하지 않는 경우가 있기 때문에, 차량 옵션 변수 중 결측치가 존재하면 0으로 대체하였다.

    • 모든 열에 대해 결측치가 없는 것을 확인하였다. (데이터 완결성)

  • 이상치 확인

4. 데이터 시각화

image-20240325213155510

image-20240325213218196

image-20240325213325433

추후 업데이트 예정입니다.

  1. 엔카, KB차차차 웹크롤링을 통한 데이터 수집
  2. 기계학습 모델 데이터 학습

코드 저장소

회의 기록(노션)