ResumeAtlas: Ripensare la Classificazione dei Curriculum con Dataset su Larga Scala e Modelli Linguistici di Grandi Dimensioni

Abstract

La crescente dipendenza dalle piattaforme di reclutamento online, unita all'adozione di tecnologie di intelligenza artificiale, ha evidenziato la necessità critica di metodi efficienti per la classificazione dei curriculum. Tuttavia, sfide come dataset di piccole dimensioni, mancanza di modelli standardizzati per i curriculum e preoccupazioni relative alla privacy ostacolano l'accuratezza e l'efficacia dei modelli di classificazione esistenti. In questo lavoro, affrontiamo queste sfide presentando un approccio completo alla classificazione dei curriculum. Abbiamo curato un dataset su larga scala di 13.389 curriculum provenienti da fonti diverse e abbiamo utilizzato modelli linguistici di grandi dimensioni (LLM) come BERT e Gemma1.1 2B per la classificazione. I nostri risultati dimostrano miglioramenti significativi rispetto agli approcci tradizionali di machine learning, con il nostro miglior modello che raggiunge un'accuratezza top-1 del 92% e un'accuratezza top-5 del 97,5%. Questi risultati sottolineano l'importanza della qualità del dataset e delle architetture avanzate dei modelli nel migliorare l'accuratezza e la robustezza dei sistemi di classificazione dei curriculum, contribuendo così a far progredire il campo delle pratiche di reclutamento online.

English

The increasing reliance on online recruitment platforms coupled with the adoption of AI technologies has highlighted the critical need for efficient resume classification methods. However, challenges such as small datasets, lack of standardized resume templates, and privacy concerns hinder the accuracy and effectiveness of existing classification models. In this work, we address these challenges by presenting a comprehensive approach to resume classification. We curated a large-scale dataset of 13,389 resumes from diverse sources and employed Large Language Models (LLMs) such as BERT and Gemma1.1 2B for classification. Our results demonstrate significant improvements over traditional machine learning approaches, with our best model achieving a top-1 accuracy of 92\% and a top-5 accuracy of 97.5\%. These findings underscore the importance of dataset quality and advanced model architectures in enhancing the accuracy and robustness of resume classification systems, thus advancing the field of online recruitment practices.

ResumeAtlas: Ripensare la Classificazione dei Curriculum con Dataset su Larga Scala e Modelli Linguistici di Grandi Dimensioni

ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models

Abstract

Support