Modelos de Linguagem de Grande Escala de Código Aberto Superam Trabalhadores Humanos e se Aproximam do ChatGPT em Tarefas de Anotação de Texto

Resumo

Este estudo examina o desempenho de Modelos de Linguagem de Grande Escala (LLMs) de código aberto em tarefas de anotação de texto e o compara com modelos proprietários, como o ChatGPT, e serviços baseados em humanos, como o MTurk. Embora pesquisas anteriores tenham demonstrado o alto desempenho do ChatGPT em diversas tarefas de PLN, LLMs de código aberto, como HugginChat e FLAN, estão ganhando atenção por sua relação custo-benefício, transparência, reprodutibilidade e proteção superior de dados. Avaliamos esses modelos utilizando abordagens zero-shot e few-shot, além de diferentes parâmetros de temperatura, em uma variedade de tarefas de anotação de texto. Nossos resultados mostram que, embora o ChatGPT alcance o melhor desempenho na maioria das tarefas, os LLMs de código aberto não apenas superam o MTurk, mas também demonstram potencial competitivo em relação ao ChatGPT em tarefas específicas.

English

This study examines the performance of open-source Large Language Models (LLMs) in text annotation tasks and compares it with proprietary models like ChatGPT and human-based services such as MTurk. While prior research demonstrated the high performance of ChatGPT across numerous NLP tasks, open-source LLMs like HugginChat and FLAN are gaining attention for their cost-effectiveness, transparency, reproducibility, and superior data protection. We assess these models using both zero-shot and few-shot approaches and different temperature parameters across a range of text annotation tasks. Our findings show that while ChatGPT achieves the best performance in most tasks, open-source LLMs not only outperform MTurk but also demonstrate competitive potential against ChatGPT in specific tasks.

Modelos de Linguagem de Grande Escala de Código Aberto Superam Trabalhadores Humanos e se Aproximam do ChatGPT em Tarefas de Anotação de Texto

Open-Source Large Language Models Outperform Crowd Workers and Approach ChatGPT in Text-Annotation Tasks

Resumo

Support