I Modelli Linguistici di Grandi Dimensioni Open-Source Superano i Lavoratori della Folla e Si Avvicinano a ChatGPT nei Compiti di Annotazione del Testo
Open-Source Large Language Models Outperform Crowd Workers and Approach ChatGPT in Text-Annotation Tasks
July 5, 2023
Autori: Meysam Alizadeh, Maël Kubli, Zeynab Samei, Shirin Dehghani, Juan Diego Bermeo, Maria Korobeynikova, Fabrizio Gilardi
cs.AI
Abstract
Questo studio esamina le prestazioni dei modelli linguistici di grandi dimensioni (LLM) open-source nei compiti di annotazione del testo e le confronta con modelli proprietari come ChatGPT e servizi basati su esseri umani come MTurk. Mentre ricerche precedenti hanno dimostrato l'elevata performance di ChatGPT in numerosi compiti di elaborazione del linguaggio naturale (NLP), i LLM open-source come HugginChat e FLAN stanno attirando l'attenzione per la loro convenienza, trasparenza, riproducibilità e superiore protezione dei dati. Valutiamo questi modelli utilizzando approcci sia zero-shot che few-shot e diversi parametri di temperatura in una gamma di compiti di annotazione del testo. I nostri risultati mostrano che, sebbene ChatGPT raggiunga le migliori prestazioni nella maggior parte dei compiti, i LLM open-source non solo superano MTurk, ma dimostrano anche un potenziale competitivo rispetto a ChatGPT in compiti specifici.
English
This study examines the performance of open-source Large Language Models
(LLMs) in text annotation tasks and compares it with proprietary models like
ChatGPT and human-based services such as MTurk. While prior research
demonstrated the high performance of ChatGPT across numerous NLP tasks,
open-source LLMs like HugginChat and FLAN are gaining attention for their
cost-effectiveness, transparency, reproducibility, and superior data
protection. We assess these models using both zero-shot and few-shot approaches
and different temperature parameters across a range of text annotation tasks.
Our findings show that while ChatGPT achieves the best performance in most
tasks, open-source LLMs not only outperform MTurk but also demonstrate
competitive potential against ChatGPT in specific tasks.