ResumeAtlas: Neubewertung der Lebenslaufklassifizierung mit umfangreichen Datensätzen und großen Sprachmodellen
ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models
June 26, 2024
Autoren: Ahmed Heakl, Youssef Mohamed, Noran Mohamed, Ali Sharkaway, Ahmed Zaky
cs.AI
Zusammenfassung
Die zunehmende Abhängigkeit von Online-Rekrutierungsplattformen in Verbindung mit der Verbreitung von KI-Technologien hat den kritischen Bedarf an effizienten Methoden zur Lebenslaufklassifizierung hervorgehoben. Herausforderungen wie kleine Datensätze, fehlende standardisierte Lebenslaufvorlagen und Datenschutzbedenken beeinträchtigen jedoch die Genauigkeit und Effektivität bestehender Klassifizierungsmodelle. In dieser Arbeit gehen wir auf diese Herausforderungen ein, indem wir einen umfassenden Ansatz zur Lebenslaufklassifizierung vorstellen. Wir haben einen umfangreichen Datensatz von 13.389 Lebensläufen aus verschiedenen Quellen zusammengestellt und Large Language Models (LLMs) wie BERT und Gemma1.1 2B zur Klassifizierung eingesetzt. Unsere Ergebnisse zeigen signifikante Verbesserungen gegenüber traditionellen maschinellen Lernansätzen, wobei unser bestes Modell eine Top-1-Genauigkeit von 92 % und eine Top-5-Genauigkeit von 97,5 % erreicht. Diese Ergebnisse unterstreichen die Bedeutung der Datensatzqualität und fortschrittlicher Modellarchitekturen zur Steigerung der Genauigkeit und Robustheit von Lebenslaufklassifizierungssystemen und damit zur Weiterentwicklung des Bereichs der Online-Rekrutierungspraktiken.
English
The increasing reliance on online recruitment platforms coupled with the
adoption of AI technologies has highlighted the critical need for efficient
resume classification methods. However, challenges such as small datasets, lack
of standardized resume templates, and privacy concerns hinder the accuracy and
effectiveness of existing classification models. In this work, we address these
challenges by presenting a comprehensive approach to resume classification. We
curated a large-scale dataset of 13,389 resumes from diverse sources and
employed Large Language Models (LLMs) such as BERT and Gemma1.1 2B for
classification. Our results demonstrate significant improvements over
traditional machine learning approaches, with our best model achieving a top-1
accuracy of 92\% and a top-5 accuracy of 97.5\%. These findings underscore the
importance of dataset quality and advanced model architectures in enhancing the
accuracy and robustness of resume classification systems, thus advancing the
field of online recruitment practices.Summary
AI-Generated Summary