ResumeAtlas: Een herziening van CV-classificatie met grootschalige datasets en grote taalmodelen
ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models
June 26, 2024
Auteurs: Ahmed Heakl, Youssef Mohamed, Noran Mohamed, Ali Sharkaway, Ahmed Zaky
cs.AI
Samenvatting
De toenemende afhankelijkheid van online wervingsplatforms, in combinatie met de
adoptie van AI-technologieën, heeft de cruciale behoefte aan efficiënte
methoden voor cv-classificatie benadrukt. Uitdagingen zoals kleine datasets, het
ontbreken van gestandaardiseerde cv-sjablonen en privacyzorgen belemmeren echter
de nauwkeurigheid en effectiviteit van bestaande classificatiemodellen. In dit
werk gaan we deze uitdagingen aan door een uitgebreide aanpak voor
cv-classificatie te presenteren. We hebben een grootschalige dataset van 13.389
cv's uit diverse bronnen samengesteld en Large Language Models (LLMs) zoals BERT
en Gemma1.1 2B ingezet voor classificatie. Onze resultaten tonen aanzienlijke
verbeteringen ten opzichte van traditionele machine learning-benaderingen, waarbij
ons beste model een top-1 nauwkeurigheid van 92\% en een top-5 nauwkeurigheid van
97,5\% behaalt. Deze bevindingen onderstrepen het belang van datasetkwaliteit en
geavanceerde modelarchitecturen bij het verbeteren van de nauwkeurigheid en
robuustheid van cv-classificatiesystemen, waardoor het vakgebied van online
wervingspraktijken wordt bevorderd.
English
The increasing reliance on online recruitment platforms coupled with the
adoption of AI technologies has highlighted the critical need for efficient
resume classification methods. However, challenges such as small datasets, lack
of standardized resume templates, and privacy concerns hinder the accuracy and
effectiveness of existing classification models. In this work, we address these
challenges by presenting a comprehensive approach to resume classification. We
curated a large-scale dataset of 13,389 resumes from diverse sources and
employed Large Language Models (LLMs) such as BERT and Gemma1.1 2B for
classification. Our results demonstrate significant improvements over
traditional machine learning approaches, with our best model achieving a top-1
accuracy of 92\% and a top-5 accuracy of 97.5\%. These findings underscore the
importance of dataset quality and advanced model architectures in enhancing the
accuracy and robustness of resume classification systems, thus advancing the
field of online recruitment practices.