Umstrittene Intelligenz: Bewertung von LLM-Richtern durch Debattenrede-Analyse
Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation
June 5, 2025
Autoren: Noy Sternlicht, Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim
cs.AI
Zusammenfassung
Wir führen die Bewertung von Debattenreden als neuartige und anspruchsvolle Benchmark zur Beurteilung von LLM-Richtern ein. Die Bewertung von Debattenreden erfordert ein tiefgreifendes Verständnis der Rede auf mehreren Ebenen, einschließlich der Stärke und Relevanz der Argumente, der Kohärenz und Struktur der Rede, der Angemessenheit ihres Stils und Tons sowie weiterer Aspekte. Diese Aufgabe umfasst ein einzigartiges Set kognitiver Fähigkeiten, die bisher in der systematischen Benchmarking von LLMs nur begrenzt berücksichtigt wurden. Um solche Fähigkeiten zu untersuchen, nutzen wir einen Datensatz von über 600 sorgfältig annotierten Debattenreden und präsentieren die erste detaillierte Analyse, wie state-of-the-art LLMs im Vergleich zu menschlichen Richtern bei dieser Aufgabe abschneiden. Unsere Ergebnisse zeigen ein differenziertes Bild: Während größere Modelle in einigen Aspekten individuelle menschliche Urteile annähern können, unterscheiden sie sich erheblich in ihrem allgemeinen Urteilsverhalten. Wir untersuchen auch die Fähigkeit von führenden LLMs, überzeugende, meinungsstarke Reden zu generieren, und zeigen, dass Modelle bei dieser Aufgabe auf menschlichem Niveau agieren können.
English
We introduce Debate Speech Evaluation as a novel and challenging benchmark
for assessing LLM judges. Evaluating debate speeches requires a deep
understanding of the speech at multiple levels, including argument strength and
relevance, the coherence and organization of the speech, the appropriateness of
its style and tone, and so on. This task involves a unique set of cognitive
abilities that have previously received limited attention in systematic LLM
benchmarking. To explore such skills, we leverage a dataset of over 600
meticulously annotated debate speeches and present the first in-depth analysis
of how state-of-the-art LLMs compare to human judges on this task. Our findings
reveal a nuanced picture: while larger models can approximate individual human
judgments in some respects, they differ substantially in their overall judgment
behavior. We also investigate the ability of frontier LLMs to generate
persuasive, opinionated speeches, showing that models may perform at a human
level on this task.