ChatPaper.aiChatPaper

Inteligencia Debatible: Evaluación de Jueces de Modelos de Lenguaje mediante el Análisis de Discursos de Debate

Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation

June 5, 2025
Autores: Noy Sternlicht, Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim
cs.AI

Resumen

Introducimos la Evaluación de Discursos de Debate como un nuevo y desafiante punto de referencia para evaluar jueces de LLM. Evaluar discursos de debate requiere una comprensión profunda del discurso en múltiples niveles, incluyendo la fuerza y relevancia de los argumentos, la coherencia y organización del discurso, la adecuación de su estilo y tono, entre otros. Esta tarea implica un conjunto único de habilidades cognitivas que han recibido atención limitada en la evaluación sistemática de LLM. Para explorar dichas habilidades, utilizamos un conjunto de datos de más de 600 discursos de debate meticulosamente anotados y presentamos el primer análisis en profundidad de cómo los LLM de última generación se comparan con jueces humanos en esta tarea. Nuestros hallazgos revelan un panorama matizado: aunque los modelos más grandes pueden aproximarse a los juicios individuales humanos en algunos aspectos, difieren sustancialmente en su comportamiento general de evaluación. También investigamos la capacidad de los LLM de vanguardia para generar discursos persuasivos y con opiniones firmes, demostrando que los modelos pueden desempeñarse a un nivel humano en esta tarea.
English
We introduce Debate Speech Evaluation as a novel and challenging benchmark for assessing LLM judges. Evaluating debate speeches requires a deep understanding of the speech at multiple levels, including argument strength and relevance, the coherence and organization of the speech, the appropriateness of its style and tone, and so on. This task involves a unique set of cognitive abilities that have previously received limited attention in systematic LLM benchmarking. To explore such skills, we leverage a dataset of over 600 meticulously annotated debate speeches and present the first in-depth analysis of how state-of-the-art LLMs compare to human judges on this task. Our findings reveal a nuanced picture: while larger models can approximate individual human judgments in some respects, they differ substantially in their overall judgment behavior. We also investigate the ability of frontier LLMs to generate persuasive, opinionated speeches, showing that models may perform at a human level on this task.
PDF142June 10, 2025