Inteligência Debatível: Avaliação de Juízes de LLM por meio da Análise de Discursos de Debate
Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation
June 5, 2025
Autores: Noy Sternlicht, Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim
cs.AI
Resumo
Apresentamos a Avaliação de Discurso de Debate como um novo e desafiador benchmark para avaliar juízes de LLMs. Avaliar discursos de debate requer um profundo entendimento do discurso em múltiplos níveis, incluindo a força e relevância dos argumentos, a coerência e organização do discurso, a adequação de seu estilo e tom, entre outros. Essa tarefa envolve um conjunto único de habilidades cognitivas que até então receberam atenção limitada em benchmarks sistemáticos de LLMs. Para explorar tais habilidades, utilizamos um conjunto de dados com mais de 600 discursos de debate meticulosamente anotados e apresentamos a primeira análise detalhada de como LLMs de última geração se comparam a juízes humanos nessa tarefa. Nossos resultados revelam um cenário complexo: embora modelos maiores possam aproximar-se de julgamentos humanos individuais em alguns aspectos, eles diferem substancialmente em seu comportamento geral de julgamento. Também investigamos a capacidade de LLMs de ponta em gerar discursos persuasivos e opinativos, mostrando que os modelos podem desempenhar essa tarefa em um nível humano.
English
We introduce Debate Speech Evaluation as a novel and challenging benchmark
for assessing LLM judges. Evaluating debate speeches requires a deep
understanding of the speech at multiple levels, including argument strength and
relevance, the coherence and organization of the speech, the appropriateness of
its style and tone, and so on. This task involves a unique set of cognitive
abilities that have previously received limited attention in systematic LLM
benchmarking. To explore such skills, we leverage a dataset of over 600
meticulously annotated debate speeches and present the first in-depth analysis
of how state-of-the-art LLMs compare to human judges on this task. Our findings
reveal a nuanced picture: while larger models can approximate individual human
judgments in some respects, they differ substantially in their overall judgment
behavior. We also investigate the ability of frontier LLMs to generate
persuasive, opinionated speeches, showing that models may perform at a human
level on this task.