ChatPaper.aiChatPaper

ResumeAtlas : Réexamen de la classification de CV avec des jeux de données à grande échelle et des modèles de langage massifs

ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models

June 26, 2024
Auteurs: Ahmed Heakl, Youssef Mohamed, Noran Mohamed, Ali Sharkaway, Ahmed Zaky
cs.AI

Résumé

La dépendance croissante envers les plateformes de recrutement en ligne, couplée à l'adoption des technologies d'intelligence artificielle, a mis en lumière le besoin crucial de méthodes efficaces de classification de CV. Cependant, des défis tels que la taille réduite des jeux de données, l'absence de modèles standardisés de CV et les préoccupations liées à la confidentialité entravent la précision et l'efficacité des modèles de classification existants. Dans ce travail, nous abordons ces défis en proposant une approche complète pour la classification de CV. Nous avons constitué un jeu de données à grande échelle comprenant 13 389 CV provenant de sources diverses et avons utilisé des modèles de langage de grande taille (LLMs) tels que BERT et Gemma1.1 2B pour la classification. Nos résultats montrent des améliorations significatives par rapport aux approches traditionnelles d'apprentissage automatique, avec notre meilleur modèle atteignant une précision top-1 de 92 % et une précision top-5 de 97,5 %. Ces résultats soulignent l'importance de la qualité des jeux de données et des architectures de modèles avancées pour améliorer la précision et la robustesse des systèmes de classification de CV, contribuant ainsi à faire progresser les pratiques de recrutement en ligne.
English
The increasing reliance on online recruitment platforms coupled with the adoption of AI technologies has highlighted the critical need for efficient resume classification methods. However, challenges such as small datasets, lack of standardized resume templates, and privacy concerns hinder the accuracy and effectiveness of existing classification models. In this work, we address these challenges by presenting a comprehensive approach to resume classification. We curated a large-scale dataset of 13,389 resumes from diverse sources and employed Large Language Models (LLMs) such as BERT and Gemma1.1 2B for classification. Our results demonstrate significant improvements over traditional machine learning approaches, with our best model achieving a top-1 accuracy of 92\% and a top-5 accuracy of 97.5\%. These findings underscore the importance of dataset quality and advanced model architectures in enhancing the accuracy and robustness of resume classification systems, thus advancing the field of online recruitment practices.

Summary

AI-Generated Summary

PDF33November 29, 2024