Language Model Council: Het benchmarken van foundation models op zeer subjectieve taken door consensus
Language Model Council: Benchmarking Foundation Models on Highly Subjective Tasks by Consensus
June 12, 2024
Auteurs: Justin Zhao, Flor Miriam Plaza-del-Arco, Amanda Cercas Curry
cs.AI
Samenvatting
De snelle vooruitgang van Large Language Models (LLM's) vereist robuuste en uitdagende benchmarks. Leaderboards zoals Chatbot Arena rangschikken LLM's op basis van hoe goed hun reacties aansluiten bij menselijke voorkeuren. Echter, veel taken, zoals die gerelateerd aan emotionele intelligentie, creatief schrijven of overtuigingskracht, zijn zeer subjectief en missen vaak een meerderheidsconsensus onder mensen. Beoordelaars kunnen onverzoenlijke meningsverschillen hebben over wat een betere reactie vormt. Om de uitdaging van het rangschikken van LLM's op zeer subjectieve taken aan te pakken, stellen we een nieuw benchmarkframework voor, de Language Model Council (LMC). De LMC werkt via een democratisch proces om: 1) een testset op te stellen door gelijke deelname, 2) de test uit te voeren onder raadsleden, en 3) reacties te evalueren als een collectieve jury. We zetten een raad van 20 nieuwste LLM's in voor een open-ended taak op het gebied van emotionele intelligentie: het reageren op interpersoonlijke dilemma's. Onze resultaten tonen aan dat de LMC rangschikkingen produceert die beter te onderscheiden, robuuster en minder bevooroordeeld zijn dan die van individuele LLM-beoordelaars, en die consistenter zijn met een door mensen vastgestelde leaderboard in vergelijking met andere benchmarks.
English
The rapid advancement of Large Language Models (LLMs) necessitates robust and
challenging benchmarks. Leaderboards like Chatbot Arena rank LLMs based on how
well their responses align with human preferences. However, many tasks such as
those related to emotional intelligence, creative writing, or persuasiveness,
are highly subjective and often lack majoritarian human agreement. Judges may
have irreconcilable disagreements about what constitutes a better response. To
address the challenge of ranking LLMs on highly subjective tasks, we propose a
novel benchmarking framework, the Language Model Council (LMC). The LMC
operates through a democratic process to: 1) formulate a test set through equal
participation, 2) administer the test among council members, and 3) evaluate
responses as a collective jury. We deploy a council of 20 newest LLMs on an
open-ended emotional intelligence task: responding to interpersonal dilemmas.
Our results show that the LMC produces rankings that are more separable,
robust, and less biased than those from any individual LLM judge, and is more
consistent with a human-established leaderboard compared to other benchmarks.