Consejo de Modelos de Lenguaje: Evaluación de Modelos Fundacionales en Tareas Altamente Subjetivas mediante Consenso
Language Model Council: Benchmarking Foundation Models on Highly Subjective Tasks by Consensus
June 12, 2024
Autores: Justin Zhao, Flor Miriam Plaza-del-Arco, Amanda Cercas Curry
cs.AI
Resumen
El rápido avance de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) exige puntos de referencia robustos y desafiantes. Clasificaciones como Chatbot Arena ordenan los LLMs según qué tan bien sus respuestas se alinean con las preferencias humanas. Sin embargo, muchas tareas, como aquellas relacionadas con la inteligencia emocional, la escritura creativa o la persuasión, son altamente subjetivas y a menudo carecen de un consenso mayoritario entre los humanos. Los evaluadores pueden tener desacuerdos irreconciliables sobre lo que constituye una mejor respuesta. Para abordar el desafío de clasificar LLMs en tareas altamente subjetivas, proponemos un marco de evaluación novedoso: el Consejo de Modelos de Lenguaje (LMC, por sus siglas en inglés). El LMC opera a través de un proceso democrático para: 1) formular un conjunto de pruebas mediante la participación equitativa, 2) administrar las pruebas entre los miembros del consejo, y 3) evaluar las respuestas como un jurado colectivo. Implementamos un consejo de 20 LLMs de última generación en una tarea abierta de inteligencia emocional: responder a dilemas interpersonales. Nuestros resultados muestran que el LMC produce clasificaciones más separables, robustas y menos sesgadas que las de cualquier juez individual basado en un LLM, y es más consistente con una clasificación establecida por humanos en comparación con otros puntos de referencia.
English
The rapid advancement of Large Language Models (LLMs) necessitates robust and
challenging benchmarks. Leaderboards like Chatbot Arena rank LLMs based on how
well their responses align with human preferences. However, many tasks such as
those related to emotional intelligence, creative writing, or persuasiveness,
are highly subjective and often lack majoritarian human agreement. Judges may
have irreconcilable disagreements about what constitutes a better response. To
address the challenge of ranking LLMs on highly subjective tasks, we propose a
novel benchmarking framework, the Language Model Council (LMC). The LMC
operates through a democratic process to: 1) formulate a test set through equal
participation, 2) administer the test among council members, and 3) evaluate
responses as a collective jury. We deploy a council of 20 newest LLMs on an
open-ended emotional intelligence task: responding to interpersonal dilemmas.
Our results show that the LMC produces rankings that are more separable,
robust, and less biased than those from any individual LLM judge, and is more
consistent with a human-established leaderboard compared to other benchmarks.