ChatPaper.aiChatPaper

ResumeAtlas: 대규모 데이터셋과 대형 언어 모델을 활용한 이력서 분류 재검토

ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models

June 26, 2024
저자: Ahmed Heakl, Youssef Mohamed, Noran Mohamed, Ali Sharkaway, Ahmed Zaky
cs.AI

초록

온라인 채용 플랫폼에 대한 의존도가 증가하고 AI 기술의 도입이 확대되면서, 효율적인 이력서 분류 방법의 필요성이 더욱 부각되고 있습니다. 그러나 소규모 데이터셋, 표준화된 이력서 템플릿의 부재, 그리고 개인정보 보호 문제와 같은 과제들이 기존 분류 모델의 정확성과 효과성을 저해하고 있습니다. 본 연구에서는 이러한 과제들을 해결하기 위해 포괄적인 이력서 분류 접근 방식을 제시합니다. 우리는 다양한 출처에서 13,389건의 대규모 이력서 데이터셋을 구축하고, BERT 및 Gemma1.1 2B와 같은 대형 언어 모델(LLM)을 분류에 활용했습니다. 실험 결과, 기존의 전통적인 머신러닝 접근법 대비 상당한 개선이 확인되었으며, 최적의 모델은 상위 1위 정확도 92%, 상위 5위 정확도 97.5%를 달성했습니다. 이러한 결과는 이력서 분류 시스템의 정확성과 견고성을 향상시키기 위해 데이터셋의 품질과 고급 모델 아키텍처의 중요성을 강조하며, 온라인 채업 관행의 발전에 기여합니다.
English
The increasing reliance on online recruitment platforms coupled with the adoption of AI technologies has highlighted the critical need for efficient resume classification methods. However, challenges such as small datasets, lack of standardized resume templates, and privacy concerns hinder the accuracy and effectiveness of existing classification models. In this work, we address these challenges by presenting a comprehensive approach to resume classification. We curated a large-scale dataset of 13,389 resumes from diverse sources and employed Large Language Models (LLMs) such as BERT and Gemma1.1 2B for classification. Our results demonstrate significant improvements over traditional machine learning approaches, with our best model achieving a top-1 accuracy of 92\% and a top-5 accuracy of 97.5\%. These findings underscore the importance of dataset quality and advanced model architectures in enhancing the accuracy and robustness of resume classification systems, thus advancing the field of online recruitment practices.

Summary

AI-Generated Summary

PDF33November 29, 2024