Intelligence contestable : Évaluation des juges LLM à travers l'analyse de discours de débat
Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation
June 5, 2025
Auteurs: Noy Sternlicht, Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim
cs.AI
Résumé
Nous introduisons l'Évaluation des Discours de Débat comme un nouveau et stimulant benchmark pour évaluer les juges LLM. Évaluer des discours de débat nécessite une compréhension approfondie du discours à plusieurs niveaux, incluant la force et la pertinence des arguments, la cohérence et l'organisation du discours, l'adéquation de son style et de son ton, et ainsi de suite. Cette tâche implique un ensemble unique de capacités cognitives qui ont jusqu'à présent reçu une attention limitée dans le benchmarking systématique des LLM. Pour explorer ces compétences, nous exploitons un ensemble de données de plus de 600 discours de débat méticuleusement annotés et présentons la première analyse approfondie de la manière dont les LLM de pointe se comparent aux juges humains sur cette tâche. Nos résultats révèlent une image nuancée : bien que les modèles plus grands puissent approcher les jugements individuels humains à certains égards, ils diffèrent considérablement dans leur comportement global de jugement. Nous étudions également la capacité des LLM de pointe à générer des discours persuasifs et engagés, montrant que les modèles peuvent atteindre un niveau humain sur cette tâche.
English
We introduce Debate Speech Evaluation as a novel and challenging benchmark
for assessing LLM judges. Evaluating debate speeches requires a deep
understanding of the speech at multiple levels, including argument strength and
relevance, the coherence and organization of the speech, the appropriateness of
its style and tone, and so on. This task involves a unique set of cognitive
abilities that have previously received limited attention in systematic LLM
benchmarking. To explore such skills, we leverage a dataset of over 600
meticulously annotated debate speeches and present the first in-depth analysis
of how state-of-the-art LLMs compare to human judges on this task. Our findings
reveal a nuanced picture: while larger models can approximate individual human
judgments in some respects, they differ substantially in their overall judgment
behavior. We also investigate the ability of frontier LLMs to generate
persuasive, opinionated speeches, showing that models may perform at a human
level on this task.