ChatPaper.aiChatPaper

Consiglio dei Modelli Linguistici: Valutazione dei Modelli di Base su Compiti Altamente Soggettivi tramite Consenso

Language Model Council: Benchmarking Foundation Models on Highly Subjective Tasks by Consensus

June 12, 2024
Autori: Justin Zhao, Flor Miriam Plaza-del-Arco, Amanda Cercas Curry
cs.AI

Abstract

Il rapido progresso dei Modelli Linguistici di Grande Dimensione (LLM) richiede benchmark robusti e impegnativi. Le classifiche come Chatbot Arena valutano gli LLM in base a quanto bene le loro risposte si allineano alle preferenze umane. Tuttavia, molti compiti, come quelli legati all'intelligenza emotiva, alla scrittura creativa o alla persuasività, sono altamente soggettivi e spesso mancano di un accordo maggioritario tra gli esseri umani. I giudici possono avere disaccordi inconciliabili su ciò che costituisce una risposta migliore. Per affrontare la sfida di classificare gli LLM su compiti altamente soggettivi, proponiamo un nuovo framework di benchmarking, il Consiglio dei Modelli Linguistici (LMC). L'LMC opera attraverso un processo democratico per: 1) formulare un set di test attraverso una partecipazione equa, 2) somministrare il test tra i membri del consiglio e 3) valutare le risposte come una giuria collettiva. Implementiamo un consiglio di 20 LLM più recenti su un compito aperto di intelligenza emotiva: rispondere a dilemmi interpersonali. I nostri risultati mostrano che l'LMC produce classifiche che sono più separabili, robuste e meno distorte rispetto a quelle di qualsiasi singolo giudice LLM, ed è più coerente con una classifica stabilita da esseri umani rispetto ad altri benchmark.
English
The rapid advancement of Large Language Models (LLMs) necessitates robust and challenging benchmarks. Leaderboards like Chatbot Arena rank LLMs based on how well their responses align with human preferences. However, many tasks such as those related to emotional intelligence, creative writing, or persuasiveness, are highly subjective and often lack majoritarian human agreement. Judges may have irreconcilable disagreements about what constitutes a better response. To address the challenge of ranking LLMs on highly subjective tasks, we propose a novel benchmarking framework, the Language Model Council (LMC). The LMC operates through a democratic process to: 1) formulate a test set through equal participation, 2) administer the test among council members, and 3) evaluate responses as a collective jury. We deploy a council of 20 newest LLMs on an open-ended emotional intelligence task: responding to interpersonal dilemmas. Our results show that the LMC produces rankings that are more separable, robust, and less biased than those from any individual LLM judge, and is more consistent with a human-established leaderboard compared to other benchmarks.
PDF61February 7, 2026