ChatPaper.aiChatPaper

ResumeAtlas: Пересмотр классификации резюме с использованием крупномасштабных наборов данных и больших языковых моделей

ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models

June 26, 2024
Авторы: Ahmed Heakl, Youssef Mohamed, Noran Mohamed, Ali Sharkaway, Ahmed Zaky
cs.AI

Аннотация

Увеличение зависимости от онлайн-платформ для найма в сочетании с принятием технологий искусственного интеллекта подчеркивает критическую необходимость эффективных методов классификации резюме. Однако вызовы, такие как небольшие наборы данных, отсутствие стандартизированных шаблонов резюме и проблемы конфиденциальности, затрудняют точность и эффективность существующих моделей классификации. В данной работе мы решаем эти проблемы, представляя комплексный подход к классификации резюме. Мы создали кураторский крупномасштабный набор данных из 13 389 резюме из различных источников и использовали большие языковые модели (LLM), такие как BERT и Gemma1.1 2B для классификации. Наши результаты демонстрируют значительное улучшение по сравнению с традиционными подходами машинного обучения, лучшая модель достигает точности верхнего уровня 92\% и точности верхних 5 уровней 97.5\%. Эти результаты подчеркивают важность качества набора данных и продвинутых архитектур моделей в повышении точности и надежности систем классификации резюме, тем самым продвигая область практик онлайн-найма.
English
The increasing reliance on online recruitment platforms coupled with the adoption of AI technologies has highlighted the critical need for efficient resume classification methods. However, challenges such as small datasets, lack of standardized resume templates, and privacy concerns hinder the accuracy and effectiveness of existing classification models. In this work, we address these challenges by presenting a comprehensive approach to resume classification. We curated a large-scale dataset of 13,389 resumes from diverse sources and employed Large Language Models (LLMs) such as BERT and Gemma1.1 2B for classification. Our results demonstrate significant improvements over traditional machine learning approaches, with our best model achieving a top-1 accuracy of 92\% and a top-5 accuracy of 97.5\%. These findings underscore the importance of dataset quality and advanced model architectures in enhancing the accuracy and robustness of resume classification systems, thus advancing the field of online recruitment practices.

Summary

AI-Generated Summary

PDF33November 29, 2024