Open-Source Large Language Models übertreffen Crowd Worker und nähern sich ChatGPT bei Text-Annotationsaufgaben.
Open-Source Large Language Models Outperform Crowd Workers and Approach ChatGPT in Text-Annotation Tasks
July 5, 2023
Autoren: Meysam Alizadeh, Maël Kubli, Zeynab Samei, Shirin Dehghani, Juan Diego Bermeo, Maria Korobeynikova, Fabrizio Gilardi
cs.AI
Zusammenfassung
Diese Studie untersucht die Leistung von Open-Source Large Language Models (LLMs) bei Textannotationsaufgaben und vergleicht sie mit proprietären Modellen wie ChatGPT und humanbasierten Diensten wie MTurk. Während frühere Forschung die hohe Leistungsfähigkeit von ChatGPT bei zahlreichen NLP-Aufgaben demonstrierte, gewinnen Open-Source-LLMs wie HugginChat und FLAN aufgrund ihrer Kosteneffizienz, Transparenz, Reproduzierbarkeit und überlegenen Datensicherheit zunehmend an Aufmerksamkeit. Wir bewerten diese Modelle sowohl mit Zero-Shot- als auch Few-Shot-Ansätzen und verschiedenen Temperaturparametern über eine Reihe von Textannotationsaufgaben hinweg. Unsere Ergebnisse zeigen, dass ChatGPT zwar in den meisten Aufgaben die beste Leistung erzielt, Open-Source-LLMs jedoch nicht nur MTurk übertreffen, sondern auch in bestimmten Aufgaben ein wettbewerbsfähiges Potenzial gegenüber ChatGPT aufweisen.
English
This study examines the performance of open-source Large Language Models
(LLMs) in text annotation tasks and compares it with proprietary models like
ChatGPT and human-based services such as MTurk. While prior research
demonstrated the high performance of ChatGPT across numerous NLP tasks,
open-source LLMs like HugginChat and FLAN are gaining attention for their
cost-effectiveness, transparency, reproducibility, and superior data
protection. We assess these models using both zero-shot and few-shot approaches
and different temperature parameters across a range of text annotation tasks.
Our findings show that while ChatGPT achieves the best performance in most
tasks, open-source LLMs not only outperform MTurk but also demonstrate
competitive potential against ChatGPT in specific tasks.