ResumeAtlas: Revisitando a Classificação de Currículos com Conjuntos de Dados em Grande Escala e Modelos de Linguagem em Grande Escala
ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models
June 26, 2024
Autores: Ahmed Heakl, Youssef Mohamed, Noran Mohamed, Ali Sharkaway, Ahmed Zaky
cs.AI
Resumo
A crescente dependência de plataformas de recrutamento online, aliada à adoção de tecnologias de IA, tem destacado a necessidade crítica de métodos eficientes de classificação de currículos. No entanto, desafios como conjuntos de dados pequenos, falta de modelos de currículo padronizados e preocupações com privacidade dificultam a precisão e eficácia dos modelos de classificação existentes. Neste trabalho, abordamos esses desafios ao apresentar uma abordagem abrangente para a classificação de currículos. Curamos um conjunto de dados em grande escala com 13.389 currículos de fontes diversas e utilizamos Modelos de Linguagem de Grande Escala (LLMs) como BERT e Gemma1.1 2B para a classificação. Nossos resultados demonstram melhorias significativas em relação às abordagens tradicionais de aprendizado de máquina, com nosso melhor modelo alcançando uma precisão de top-1 de 92\% e uma precisão de top-5 de 97,5\%. Essas descobertas destacam a importância da qualidade do conjunto de dados e das arquiteturas avançadas de modelos na melhoria da precisão e robustez dos sistemas de classificação de currículos, avançando assim o campo das práticas de recrutamento online.
English
The increasing reliance on online recruitment platforms coupled with the
adoption of AI technologies has highlighted the critical need for efficient
resume classification methods. However, challenges such as small datasets, lack
of standardized resume templates, and privacy concerns hinder the accuracy and
effectiveness of existing classification models. In this work, we address these
challenges by presenting a comprehensive approach to resume classification. We
curated a large-scale dataset of 13,389 resumes from diverse sources and
employed Large Language Models (LLMs) such as BERT and Gemma1.1 2B for
classification. Our results demonstrate significant improvements over
traditional machine learning approaches, with our best model achieving a top-1
accuracy of 92\% and a top-5 accuracy of 97.5\%. These findings underscore the
importance of dataset quality and advanced model architectures in enhancing the
accuracy and robustness of resume classification systems, thus advancing the
field of online recruitment practices.