Betwistbare Intelligentie: Het benchmarken van LLM-rechters via de evaluatie van debattoespraken
Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation
June 5, 2025
Auteurs: Noy Sternlicht, Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim
cs.AI
Samenvatting
We introduceren Debattoespraak Evaluatie als een nieuw en uitdagend benchmark
voor het beoordelen van LLM-rechters. Het evalueren van debattoespraken vereist een diep
begrip van de toespraak op meerdere niveaus, waaronder de sterkte en relevantie van argumenten,
de samenhang en organisatie van de toespraak, de geschiktheid van
de stijl en toon, enzovoort. Deze taak vereist een unieke set van cognitieve
vaardigheden die tot nu toe beperkte aandacht hebben gekregen in systematische LLM-
benchmarking. Om dergelijke vaardigheden te onderzoeken, maken we gebruik van een dataset van meer dan 600
nauwkeurig geannoteerde debattoespraken en presenteren we de eerste diepgaande analyse
van hoe state-of-the-art LLM's zich verhouden tot menselijke rechters bij deze taak. Onze bevindingen
onthullen een genuanceerd beeld: hoewel grotere modellen individuele menselijke
oordelen in sommige opzichten kunnen benaderen, verschillen ze aanzienlijk in hun algehele oordeelgedrag.
We onderzoeken ook het vermogen van geavanceerde LLM's om overtuigende,
geëngageerde toespraken te genereren, en laten zien dat modellen op menselijk niveau kunnen presteren bij deze taak.
English
We introduce Debate Speech Evaluation as a novel and challenging benchmark
for assessing LLM judges. Evaluating debate speeches requires a deep
understanding of the speech at multiple levels, including argument strength and
relevance, the coherence and organization of the speech, the appropriateness of
its style and tone, and so on. This task involves a unique set of cognitive
abilities that have previously received limited attention in systematic LLM
benchmarking. To explore such skills, we leverage a dataset of over 600
meticulously annotated debate speeches and present the first in-depth analysis
of how state-of-the-art LLMs compare to human judges on this task. Our findings
reveal a nuanced picture: while larger models can approximate individual human
judgments in some respects, they differ substantially in their overall judgment
behavior. We also investigate the ability of frontier LLMs to generate
persuasive, opinionated speeches, showing that models may perform at a human
level on this task.