ResumeAtlas: Revisión de la Clasificación de Currículums con Conjuntos de Datos a Gran Escala y Modelos de Lenguaje de Gran Tamaño
ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models
June 26, 2024
Autores: Ahmed Heakl, Youssef Mohamed, Noran Mohamed, Ali Sharkaway, Ahmed Zaky
cs.AI
Resumen
La creciente dependencia de plataformas de reclutamiento en línea, junto con la adopción de tecnologías de inteligencia artificial, ha resaltado la necesidad crítica de métodos eficientes para la clasificación de currículos. Sin embargo, desafíos como conjuntos de datos pequeños, la falta de plantillas estandarizadas para currículos y preocupaciones sobre la privacidad dificultan la precisión y efectividad de los modelos de clasificación existentes. En este trabajo, abordamos estos desafíos presentando un enfoque integral para la clasificación de currículos. Recopilamos un conjunto de datos a gran escala de 13,389 currículos provenientes de diversas fuentes y empleamos Modelos de Lenguaje de Gran Escala (LLMs) como BERT y Gemma1.1 2B para la clasificación. Nuestros resultados demuestran mejoras significativas en comparación con enfoques tradicionales de aprendizaje automático, con nuestro mejor modelo alcanzando una precisión top-1 del 92\% y una precisión top-5 del 97.5\%. Estos hallazgos subrayan la importancia de la calidad del conjunto de datos y las arquitecturas avanzadas de modelos para mejorar la precisión y robustez de los sistemas de clasificación de currículos, avanzando así en el campo de las prácticas de reclutamiento en línea.
English
The increasing reliance on online recruitment platforms coupled with the
adoption of AI technologies has highlighted the critical need for efficient
resume classification methods. However, challenges such as small datasets, lack
of standardized resume templates, and privacy concerns hinder the accuracy and
effectiveness of existing classification models. In this work, we address these
challenges by presenting a comprehensive approach to resume classification. We
curated a large-scale dataset of 13,389 resumes from diverse sources and
employed Large Language Models (LLMs) such as BERT and Gemma1.1 2B for
classification. Our results demonstrate significant improvements over
traditional machine learning approaches, with our best model achieving a top-1
accuracy of 92\% and a top-5 accuracy of 97.5\%. These findings underscore the
importance of dataset quality and advanced model architectures in enhancing the
accuracy and robustness of resume classification systems, thus advancing the
field of online recruitment practices.Summary
AI-Generated Summary