ChatPaper.aiChatPaper

Sprachmodell-Rat: Benchmarking von Grundlagenmodellen für hochgradig subjektive Aufgaben durch Konsens

Language Model Council: Benchmarking Foundation Models on Highly Subjective Tasks by Consensus

June 12, 2024
papers.authors: Justin Zhao, Flor Miriam Plaza-del-Arco, Amanda Cercas Curry
cs.AI

papers.abstract

Der rasante Fortschritt großer Sprachmodelle (LLMs) erfordert robuste und anspruchsvolle Benchmarks. Bestenlisten wie Chatbot Arena bewerten LLMs anhand der Übereinstimmung ihrer Antworten mit menschlichen Präferenzen. Viele Aufgaben, wie solche im Zusammenhang mit emotionaler Intelligenz, kreativem Schreiben oder Überzeugungskraft, sind jedoch äußerst subjektiv und weisen oft keine einheitliche menschliche Zustimmung auf. Richter können unüberbrückbare Meinungsverschiedenheiten darüber haben, was eine bessere Antwort ausmacht. Um der Herausforderung gerecht zu werden, LLMs in hochgradig subjektiven Aufgaben zu bewerten, schlagen wir einen neuartigen Benchmarking-Ansatz vor, den Sprachmodellrat (LMC). Der LMC arbeitet durch einen demokratischen Prozess, um: 1) einen Testdatensatz durch gleichberechtigte Beteiligung zu formulieren, 2) den Test unter den Ratsmitgliedern durchzuführen und 3) Antworten als kollektive Jury zu bewerten. Wir setzen einen Rat von 20 neuesten LLMs auf einer offenen emotionalen Intelligenzaufgabe ein: Reaktionen auf zwischenmenschliche Dilemmata. Unsere Ergebnisse zeigen, dass der LMC Rankings erzeugt, die trennsamer, robuster und weniger voreingenommen sind als die von einzelnen LLM-Richtern, und im Vergleich zu anderen Benchmarks konsistenter mit einer von Menschen erstellten Bestenliste sind.
English
The rapid advancement of Large Language Models (LLMs) necessitates robust and challenging benchmarks. Leaderboards like Chatbot Arena rank LLMs based on how well their responses align with human preferences. However, many tasks such as those related to emotional intelligence, creative writing, or persuasiveness, are highly subjective and often lack majoritarian human agreement. Judges may have irreconcilable disagreements about what constitutes a better response. To address the challenge of ranking LLMs on highly subjective tasks, we propose a novel benchmarking framework, the Language Model Council (LMC). The LMC operates through a democratic process to: 1) formulate a test set through equal participation, 2) administer the test among council members, and 3) evaluate responses as a collective jury. We deploy a council of 20 newest LLMs on an open-ended emotional intelligence task: responding to interpersonal dilemmas. Our results show that the LMC produces rankings that are more separable, robust, and less biased than those from any individual LLM judge, and is more consistent with a human-established leaderboard compared to other benchmarks.
PDF61December 6, 2024