ChatPaper.aiChatPaper

議論可能な知性:討論スピーチ評価によるLLM審査官のベンチマーキング

Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation

June 5, 2025
著者: Noy Sternlicht, Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim
cs.AI

要旨

我々は、LLM(大規模言語モデル)評価のための新たで挑戦的なベンチマークとして、ディベートスピーチ評価を導入する。ディベートスピーチの評価には、議論の強さや関連性、スピーチの一貫性と構成、スタイルやトーンの適切さなど、複数のレベルでの深い理解が要求される。このタスクは、これまで体系的にLLMベンチマークで注目されてこなかった一連の認知能力を必要とする。こうしたスキルを探るため、我々は600以上の詳細に注釈付けされたディベートスピーチのデータセットを活用し、最先端のLLMがこのタスクにおいて人間の審査員とどのように比較されるかについて初めての詳細な分析を提示する。我々の調査結果は、より大規模なモデルが一部の点で個々の人間の判断を近似できる一方で、全体的な判断行動においては大きく異なるという微妙な状況を明らかにしている。また、最先端のLLMが説得力のある意見を述べたスピーチを生成する能力についても調査し、このタスクにおいてモデルが人間レベルのパフォーマンスを発揮し得ることを示す。
English
We introduce Debate Speech Evaluation as a novel and challenging benchmark for assessing LLM judges. Evaluating debate speeches requires a deep understanding of the speech at multiple levels, including argument strength and relevance, the coherence and organization of the speech, the appropriateness of its style and tone, and so on. This task involves a unique set of cognitive abilities that have previously received limited attention in systematic LLM benchmarking. To explore such skills, we leverage a dataset of over 600 meticulously annotated debate speeches and present the first in-depth analysis of how state-of-the-art LLMs compare to human judges on this task. Our findings reveal a nuanced picture: while larger models can approximate individual human judgments in some respects, they differ substantially in their overall judgment behavior. We also investigate the ability of frontier LLMs to generate persuasive, opinionated speeches, showing that models may perform at a human level on this task.
PDF142June 10, 2025