ResumeAtlas: Ripensare la Classificazione dei Curriculum con Dataset su Larga Scala e Modelli Linguistici di Grandi Dimensioni
ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models
June 26, 2024
Autori: Ahmed Heakl, Youssef Mohamed, Noran Mohamed, Ali Sharkaway, Ahmed Zaky
cs.AI
Abstract
La crescente dipendenza dalle piattaforme di reclutamento online, unita all'adozione di tecnologie di intelligenza artificiale, ha evidenziato la necessità critica di metodi efficienti per la classificazione dei curriculum. Tuttavia, sfide come dataset di piccole dimensioni, mancanza di modelli standardizzati per i curriculum e preoccupazioni relative alla privacy ostacolano l'accuratezza e l'efficacia dei modelli di classificazione esistenti. In questo lavoro, affrontiamo queste sfide presentando un approccio completo alla classificazione dei curriculum. Abbiamo curato un dataset su larga scala di 13.389 curriculum provenienti da fonti diverse e abbiamo utilizzato modelli linguistici di grandi dimensioni (LLM) come BERT e Gemma1.1 2B per la classificazione. I nostri risultati dimostrano miglioramenti significativi rispetto agli approcci tradizionali di machine learning, con il nostro miglior modello che raggiunge un'accuratezza top-1 del 92% e un'accuratezza top-5 del 97,5%. Questi risultati sottolineano l'importanza della qualità del dataset e delle architetture avanzate dei modelli nel migliorare l'accuratezza e la robustezza dei sistemi di classificazione dei curriculum, contribuendo così a far progredire il campo delle pratiche di reclutamento online.
English
The increasing reliance on online recruitment platforms coupled with the
adoption of AI technologies has highlighted the critical need for efficient
resume classification methods. However, challenges such as small datasets, lack
of standardized resume templates, and privacy concerns hinder the accuracy and
effectiveness of existing classification models. In this work, we address these
challenges by presenting a comprehensive approach to resume classification. We
curated a large-scale dataset of 13,389 resumes from diverse sources and
employed Large Language Models (LLMs) such as BERT and Gemma1.1 2B for
classification. Our results demonstrate significant improvements over
traditional machine learning approaches, with our best model achieving a top-1
accuracy of 92\% and a top-5 accuracy of 97.5\%. These findings underscore the
importance of dataset quality and advanced model architectures in enhancing the
accuracy and robustness of resume classification systems, thus advancing the
field of online recruitment practices.