Los modelos de lenguaje de código abierto superan a los trabajadores de crowdsourcing y se acercan a ChatGPT en tareas de anotación de texto.
Open-Source Large Language Models Outperform Crowd Workers and Approach ChatGPT in Text-Annotation Tasks
July 5, 2023
Autores: Meysam Alizadeh, Maël Kubli, Zeynab Samei, Shirin Dehghani, Juan Diego Bermeo, Maria Korobeynikova, Fabrizio Gilardi
cs.AI
Resumen
Este estudio examina el rendimiento de los modelos de lenguaje de gran escala (LLMs) de código abierto en tareas de anotación de texto y lo compara con modelos propietarios como ChatGPT y servicios basados en humanos como MTurk. Si bien investigaciones previas demostraron el alto rendimiento de ChatGPT en numerosas tareas de procesamiento del lenguaje natural (NLP), los LLMs de código abierto como HugginChat y FLAN están ganando atención por su rentabilidad, transparencia, reproducibilidad y superior protección de datos. Evaluamos estos modelos utilizando enfoques tanto de zero-shot como de few-shot, así como diferentes parámetros de temperatura en una variedad de tareas de anotación de texto. Nuestros hallazgos muestran que, aunque ChatGPT logra el mejor rendimiento en la mayoría de las tareas, los LLMs de código abierto no solo superan a MTurk, sino que también demuestran un potencial competitivo frente a ChatGPT en tareas específicas.
English
This study examines the performance of open-source Large Language Models
(LLMs) in text annotation tasks and compares it with proprietary models like
ChatGPT and human-based services such as MTurk. While prior research
demonstrated the high performance of ChatGPT across numerous NLP tasks,
open-source LLMs like HugginChat and FLAN are gaining attention for their
cost-effectiveness, transparency, reproducibility, and superior data
protection. We assess these models using both zero-shot and few-shot approaches
and different temperature parameters across a range of text annotation tasks.
Our findings show that while ChatGPT achieves the best performance in most
tasks, open-source LLMs not only outperform MTurk but also demonstrate
competitive potential against ChatGPT in specific tasks.