Modelos de Linguagem de Grande Escala de Código Aberto Superam Trabalhadores Humanos e se Aproximam do ChatGPT em Tarefas de Anotação de Texto
Open-Source Large Language Models Outperform Crowd Workers and Approach ChatGPT in Text-Annotation Tasks
July 5, 2023
Autores: Meysam Alizadeh, Maël Kubli, Zeynab Samei, Shirin Dehghani, Juan Diego Bermeo, Maria Korobeynikova, Fabrizio Gilardi
cs.AI
Resumo
Este estudo examina o desempenho de Modelos de Linguagem de Grande Escala (LLMs) de código aberto em tarefas de anotação de texto e o compara com modelos proprietários, como o ChatGPT, e serviços baseados em humanos, como o MTurk. Embora pesquisas anteriores tenham demonstrado o alto desempenho do ChatGPT em diversas tarefas de PLN, LLMs de código aberto, como HugginChat e FLAN, estão ganhando atenção por sua relação custo-benefício, transparência, reprodutibilidade e proteção superior de dados. Avaliamos esses modelos utilizando abordagens zero-shot e few-shot, além de diferentes parâmetros de temperatura, em uma variedade de tarefas de anotação de texto. Nossos resultados mostram que, embora o ChatGPT alcance o melhor desempenho na maioria das tarefas, os LLMs de código aberto não apenas superam o MTurk, mas também demonstram potencial competitivo em relação ao ChatGPT em tarefas específicas.
English
This study examines the performance of open-source Large Language Models
(LLMs) in text annotation tasks and compares it with proprietary models like
ChatGPT and human-based services such as MTurk. While prior research
demonstrated the high performance of ChatGPT across numerous NLP tasks,
open-source LLMs like HugginChat and FLAN are gaining attention for their
cost-effectiveness, transparency, reproducibility, and superior data
protection. We assess these models using both zero-shot and few-shot approaches
and different temperature parameters across a range of text annotation tasks.
Our findings show that while ChatGPT achieves the best performance in most
tasks, open-source LLMs not only outperform MTurk but also demonstrate
competitive potential against ChatGPT in specific tasks.