ChatPaper.aiChatPaper

Совет по языковым моделям: оценка базовых моделей на высоко Субъективных задачах путем достижения консенсуса

Language Model Council: Benchmarking Foundation Models on Highly Subjective Tasks by Consensus

June 12, 2024
Авторы: Justin Zhao, Flor Miriam Plaza-del-Arco, Amanda Cercas Curry
cs.AI

Аннотация

Быстрое развитие крупных языковых моделей (LLM) требует надежных и сложных бенчмарков. Таблицы лидеров, такие как Chatbot Arena, ранжируют LLM на основе того, насколько их ответы соответствуют предпочтениям людей. Однако многие задачи, такие как те, которые связаны с эмоциональным интеллектом, творческим письмом или убедительностью, являются чрезвычайно субъективными и часто лишены единогласного согласия среди людей. Судьи могут иметь несовместимые разногласия относительно того, что является лучшим ответом. Для решения проблемы ранжирования LLM по крайне субъективным задачам мы предлагаем новую методику бенчмаркинга - Совет языковой модели (LMC). LMC действует через демократический процесс для: 1) формулирования набора тестов с равным участием, 2) проведения теста среди членов совета и 3) оценки ответов как коллективное жюри. Мы создаем совет из 20 новейших LLM для выполнения открытой задачи по эмоциональному интеллекту: реагирование на межличностные дилеммы. Наши результаты показывают, что LMC производит ранжирование, которое более разделимо, устойчиво и менее предвзято, чем у любого отдельного судьи LLM, и более согласуется с таблицей лидеров, установленной людьми, по сравнению с другими бенчмарками.
English
The rapid advancement of Large Language Models (LLMs) necessitates robust and challenging benchmarks. Leaderboards like Chatbot Arena rank LLMs based on how well their responses align with human preferences. However, many tasks such as those related to emotional intelligence, creative writing, or persuasiveness, are highly subjective and often lack majoritarian human agreement. Judges may have irreconcilable disagreements about what constitutes a better response. To address the challenge of ranking LLMs on highly subjective tasks, we propose a novel benchmarking framework, the Language Model Council (LMC). The LMC operates through a democratic process to: 1) formulate a test set through equal participation, 2) administer the test among council members, and 3) evaluate responses as a collective jury. We deploy a council of 20 newest LLMs on an open-ended emotional intelligence task: responding to interpersonal dilemmas. Our results show that the LMC produces rankings that are more separable, robust, and less biased than those from any individual LLM judge, and is more consistent with a human-established leaderboard compared to other benchmarks.
PDF61December 6, 2024