ChatPaper.aiChatPaper

Спорный интеллект: Оценка судейских способностей языковых моделей через анализ дебатных выступлений

Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation

June 5, 2025
Авторы: Noy Sternlicht, Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim
cs.AI

Аннотация

Мы представляем оценку дебатных выступлений как новый и сложный эталон для тестирования языковых моделей (LLM) в роли судей. Оценка дебатных выступлений требует глубокого понимания речи на нескольких уровнях, включая силу и релевантность аргументов, связность и структуру выступления, уместность его стиля и тона и так далее. Эта задача предполагает уникальный набор когнитивных способностей, которые ранее получали ограниченное внимание в систематическом тестировании LLM. Для изучения таких навыков мы используем набор данных, включающий более 600 тщательно аннотированных дебатных выступлений, и представляем первый детальный анализ того, как современные LLM справляются с этой задачей по сравнению с человеческими судьями. Наши результаты раскрывают сложную картину: хотя более крупные модели могут приближаться к индивидуальным суждениям людей в некоторых аспектах, они существенно отличаются в своем общем подходе к оценке. Мы также исследуем способность передовых LLM генерировать убедительные, аргументированные выступления, демонстрируя, что модели могут выполнять эту задачу на уровне человека.
English
We introduce Debate Speech Evaluation as a novel and challenging benchmark for assessing LLM judges. Evaluating debate speeches requires a deep understanding of the speech at multiple levels, including argument strength and relevance, the coherence and organization of the speech, the appropriateness of its style and tone, and so on. This task involves a unique set of cognitive abilities that have previously received limited attention in systematic LLM benchmarking. To explore such skills, we leverage a dataset of over 600 meticulously annotated debate speeches and present the first in-depth analysis of how state-of-the-art LLMs compare to human judges on this task. Our findings reveal a nuanced picture: while larger models can approximate individual human judgments in some respects, they differ substantially in their overall judgment behavior. We also investigate the ability of frontier LLMs to generate persuasive, opinionated speeches, showing that models may perform at a human level on this task.
PDF142June 10, 2025