ChatPaper.aiChatPaper

Conseil des Modèles de Langage : Évaluation des Modèles Fondamentaux sur des Tâches Hautement Subjectives par Consensus

Language Model Council: Benchmarking Foundation Models on Highly Subjective Tasks by Consensus

June 12, 2024
papers.authors: Justin Zhao, Flor Miriam Plaza-del-Arco, Amanda Cercas Curry
cs.AI

papers.abstract

L'avancée rapide des modèles de langage à grande échelle (LLMs) nécessite des benchmarks robustes et exigeants. Les classements tels que Chatbot Arena évaluent les LLMs en fonction de l'alignement de leurs réponses avec les préférences humaines. Cependant, de nombreuses tâches, comme celles liées à l'intelligence émotionnelle, à l'écriture créative ou à la persuasion, sont hautement subjectives et manquent souvent d'un consensus majoritaire parmi les humains. Les évaluateurs peuvent avoir des désaccords irréconciliables sur ce qui constitue une meilleure réponse. Pour relever le défi du classement des LLMs sur des tâches très subjectives, nous proposons un nouveau cadre de benchmarking, le Conseil des Modèles de Langage (Language Model Council, LMC). Le LMC fonctionne à travers un processus démocratique pour : 1) formuler un ensemble de tests par participation égale, 2) administrer le test parmi les membres du conseil, et 3) évaluer les réponses en tant que jury collectif. Nous déployons un conseil de 20 LLMs les plus récents sur une tâche ouverte d'intelligence émotionnelle : répondre à des dilemmes interpersonnels. Nos résultats montrent que le LMC produit des classements plus distincts, robustes et moins biaisés que ceux de tout juge LLM individuel, et est plus cohérent avec un classement établi par des humains par rapport à d'autres benchmarks.
English
The rapid advancement of Large Language Models (LLMs) necessitates robust and challenging benchmarks. Leaderboards like Chatbot Arena rank LLMs based on how well their responses align with human preferences. However, many tasks such as those related to emotional intelligence, creative writing, or persuasiveness, are highly subjective and often lack majoritarian human agreement. Judges may have irreconcilable disagreements about what constitutes a better response. To address the challenge of ranking LLMs on highly subjective tasks, we propose a novel benchmarking framework, the Language Model Council (LMC). The LMC operates through a democratic process to: 1) formulate a test set through equal participation, 2) administer the test among council members, and 3) evaluate responses as a collective jury. We deploy a council of 20 newest LLMs on an open-ended emotional intelligence task: responding to interpersonal dilemmas. Our results show that the LMC produces rankings that are more separable, robust, and less biased than those from any individual LLM judge, and is more consistent with a human-established leaderboard compared to other benchmarks.
PDF61December 6, 2024