Спорный интеллект: Оценка судейских способностей языковых моделей через анализ дебатных выступлений
Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation
June 5, 2025
Авторы: Noy Sternlicht, Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim
cs.AI
Аннотация
Мы представляем оценку дебатных выступлений как новый и сложный эталон для тестирования языковых моделей (LLM) в роли судей. Оценка дебатных выступлений требует глубокого понимания речи на нескольких уровнях, включая силу и релевантность аргументов, связность и структуру выступления, уместность его стиля и тона и так далее. Эта задача предполагает уникальный набор когнитивных способностей, которые ранее получали ограниченное внимание в систематическом тестировании LLM. Для изучения таких навыков мы используем набор данных, включающий более 600 тщательно аннотированных дебатных выступлений, и представляем первый детальный анализ того, как современные LLM справляются с этой задачей по сравнению с человеческими судьями. Наши результаты раскрывают сложную картину: хотя более крупные модели могут приближаться к индивидуальным суждениям людей в некоторых аспектах, они существенно отличаются в своем общем подходе к оценке. Мы также исследуем способность передовых LLM генерировать убедительные, аргументированные выступления, демонстрируя, что модели могут выполнять эту задачу на уровне человека.
English
We introduce Debate Speech Evaluation as a novel and challenging benchmark
for assessing LLM judges. Evaluating debate speeches requires a deep
understanding of the speech at multiple levels, including argument strength and
relevance, the coherence and organization of the speech, the appropriateness of
its style and tone, and so on. This task involves a unique set of cognitive
abilities that have previously received limited attention in systematic LLM
benchmarking. To explore such skills, we leverage a dataset of over 600
meticulously annotated debate speeches and present the first in-depth analysis
of how state-of-the-art LLMs compare to human judges on this task. Our findings
reveal a nuanced picture: while larger models can approximate individual human
judgments in some respects, they differ substantially in their overall judgment
behavior. We also investigate the ability of frontier LLMs to generate
persuasive, opinionated speeches, showing that models may perform at a human
level on this task.