Conselho de Modelos de Linguagem: Avaliação de Modelos Fundamentais em Tarefas Altamente Subjetivas por Consenso

Resumo

O rápido avanço dos Modelos de Linguagem de Grande Escala (LLMs) exige benchmarks robustos e desafiadores. Leaderboards como o Chatbot Arena classificam os LLMs com base em quão bem suas respostas se alinham com as preferências humanas. No entanto, muitas tarefas, como aquelas relacionadas à inteligência emocional, escrita criativa ou persuasão, são altamente subjetivas e frequentemente carecem de consenso majoritário entre humanos. Juízes podem ter discordâncias irreconciliáveis sobre o que constitui uma resposta melhor. Para enfrentar o desafio de classificar LLMs em tarefas altamente subjetivas, propomos um novo framework de benchmarking, o Conselho de Modelos de Linguagem (LMC). O LMC opera por meio de um processo democrático para: 1) formular um conjunto de testes através de participação igualitária, 2) administrar o teste entre os membros do conselho, e 3) avaliar as respostas como um júri coletivo. Implantamos um conselho de 20 dos mais recentes LLMs em uma tarefa aberta de inteligência emocional: responder a dilemas interpessoais. Nossos resultados mostram que o LMC produz classificações que são mais separáveis, robustas e menos tendenciosas do que as de qualquer juiz individual de LLM, e são mais consistentes com um leaderboard estabelecido por humanos em comparação com outros benchmarks.

English

The rapid advancement of Large Language Models (LLMs) necessitates robust and challenging benchmarks. Leaderboards like Chatbot Arena rank LLMs based on how well their responses align with human preferences. However, many tasks such as those related to emotional intelligence, creative writing, or persuasiveness, are highly subjective and often lack majoritarian human agreement. Judges may have irreconcilable disagreements about what constitutes a better response. To address the challenge of ranking LLMs on highly subjective tasks, we propose a novel benchmarking framework, the Language Model Council (LMC). The LMC operates through a democratic process to: 1) formulate a test set through equal participation, 2) administer the test among council members, and 3) evaluate responses as a collective jury. We deploy a council of 20 newest LLMs on an open-ended emotional intelligence task: responding to interpersonal dilemmas. Our results show that the LMC produces rankings that are more separable, robust, and less biased than those from any individual LLM judge, and is more consistent with a human-established leaderboard compared to other benchmarks.

Conselho de Modelos de Linguagem: Avaliação de Modelos Fundamentais em Tarefas Altamente Subjetivas por Consenso

Language Model Council: Benchmarking Foundation Models on Highly Subjective Tasks by Consensus

Resumo

Support