ChatPaper.aiChatPaper

Open-source grote taalmodellen overtreffen crowdworkers en benaderen ChatGPT in tekstannotatietaken.

Open-Source Large Language Models Outperform Crowd Workers and Approach ChatGPT in Text-Annotation Tasks

July 5, 2023
Auteurs: Meysam Alizadeh, Maël Kubli, Zeynab Samei, Shirin Dehghani, Juan Diego Bermeo, Maria Korobeynikova, Fabrizio Gilardi
cs.AI

Samenvatting

Dit onderzoek analyseert de prestaties van open-source Large Language Models (LLM's) bij tekstannotatietaken en vergelijkt deze met propriëtaire modellen zoals ChatGPT en menselijke diensten zoals MTurk. Hoewel eerder onderzoek de hoge prestaties van ChatGPT bij talrijke NLP-taken aantoonde, krijgen open-source LLM's zoals HugginChat en FLAN steeds meer aandacht vanwege hun kosteneffectiviteit, transparantie, reproduceerbaarheid en superieure gegevensbescherming. We evalueren deze modellen met behulp van zowel zero-shot als few-shot benaderingen en verschillende temperatuurparameters bij een reeks tekstannotatietaken. Onze bevindingen tonen aan dat ChatGPT weliswaar de beste prestaties levert bij de meeste taken, maar dat open-source LLM's niet alleen MTurk overtreffen, maar ook competitief potentieel tonen ten opzichte van ChatGPT bij specifieke taken.
English
This study examines the performance of open-source Large Language Models (LLMs) in text annotation tasks and compares it with proprietary models like ChatGPT and human-based services such as MTurk. While prior research demonstrated the high performance of ChatGPT across numerous NLP tasks, open-source LLMs like HugginChat and FLAN are gaining attention for their cost-effectiveness, transparency, reproducibility, and superior data protection. We assess these models using both zero-shot and few-shot approaches and different temperature parameters across a range of text annotation tasks. Our findings show that while ChatGPT achieves the best performance in most tasks, open-source LLMs not only outperform MTurk but also demonstrate competitive potential against ChatGPT in specific tasks.
PDF72February 7, 2026