Модели больших языковых моделей с открытым исходным кодом превосходят работу краудворкеров и приближаются к ChatGPT в задачах аннотирования текста.
Open-Source Large Language Models Outperform Crowd Workers and Approach ChatGPT in Text-Annotation Tasks
July 5, 2023
Авторы: Meysam Alizadeh, Maël Kubli, Zeynab Samei, Shirin Dehghani, Juan Diego Bermeo, Maria Korobeynikova, Fabrizio Gilardi
cs.AI
Аннотация
В данном исследовании анализируется производительность открытых крупных языковых моделей (LLM) в задачах аннотирования текста и проводится их сравнение с проприетарными моделями, такими как ChatGPT, и услугами, основанными на человеческом труде, например MTurk. Хотя предыдущие исследования продемонстрировали высокую производительность ChatGPT в многочисленных задачах обработки естественного языка, открытые LLM, такие как HugginChat и FLAN, привлекают внимание благодаря своей экономической эффективности, прозрачности, воспроизводимости и превосходной защите данных. Мы оцениваем эти модели, используя как подходы с нулевым (zero-shot), так и с малым количеством примеров (few-shot), а также различные параметры температуры в широком спектре задач аннотирования текста. Наши результаты показывают, что, хотя ChatGPT демонстрирует наилучшую производительность в большинстве задач, открытые LLM не только превосходят MTurk, но и проявляют конкурентоспособный потенциал в сравнении с ChatGPT в определенных задачах.
English
This study examines the performance of open-source Large Language Models
(LLMs) in text annotation tasks and compares it with proprietary models like
ChatGPT and human-based services such as MTurk. While prior research
demonstrated the high performance of ChatGPT across numerous NLP tasks,
open-source LLMs like HugginChat and FLAN are gaining attention for their
cost-effectiveness, transparency, reproducibility, and superior data
protection. We assess these models using both zero-shot and few-shot approaches
and different temperature parameters across a range of text annotation tasks.
Our findings show that while ChatGPT achieves the best performance in most
tasks, open-source LLMs not only outperform MTurk but also demonstrate
competitive potential against ChatGPT in specific tasks.