ChatPaper.aiChatPaper

Ciego al Toque Humano: Sesgo de Superposición en la Evaluación de Resúmenes Basada en LLM

Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation

February 7, 2026
Autores: Jiangnan Fang, Cheng-Tse Liu, Hanieh Deilamsalehy, Nesreen K. Ahmed, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi
cs.AI

Resumen

Los modelos de lenguaje grande (LLM) utilizados como jueces se han empleado con frecuencia junto con métricas tradicionales basadas en algoritmos para tareas como la summarización, ya que capturan mejor la información semántica, poseen mejor capacidad de razonamiento y son más robustos frente a la paráfrasis. Sin embargo, los LLM jueces presentan sesgos, entre otros, por la longitud y el orden, y son vulnerables a diversos *prompts* de entrada adversarios. Si bien estudios recientes han investigado estos sesgos, pocos los han analizado a un nivel más granular en relación con una métrica de superposición bien definida. En este trabajo, proporcionamos un análisis del sesgo de los LLM jueces en función de la superposición con respuestas escritas por humanos en el dominio de la summarización. Evaluamos 9 LLM recientes con recuentos de parámetros que van desde 1 mil millones hasta 12 mil millones, incluyendo variantes de Gemma 3 y LLaMA 3. Descubrimos que los LLM jueces prefieren progresivamente más los resúmenes generados por otros LLM que los escritos por humanos a medida que las similitudes (medidas por ROUGE y BLEU) entre los resúmenes evaluados disminuyen. Este patrón se extiende a todos los modelos probados excepto uno, y existe independientemente de los sesgos de posición propios de los modelos. Adicionalmente, encontramos que los modelos tienen dificultades para evaluar incluso resúmenes con superposiciones limitadas, lo que sugiere que el uso de LLM-como-juez en el dominio de la summarización debería apoyarse en técnicas que van más allá de una simple comparación.
English
Large language model (LLM) judges have often been used alongside traditional, algorithm-based metrics for tasks like summarization because they better capture semantic information, are better at reasoning, and are more robust to paraphrasing. However, LLM judges show biases for length and order among others, and are vulnerable to various adversarial input prompts. While recent studies have looked into these biases, few have analyzed them at a more granular level in relation to a well-defined overlap metric. In this work we provide an LLM judge bias analysis as a function of overlap with human-written responses in the domain of summarization. We test 9 recent LLMs with parameter counts ranging from 1 billion to 12 billion, including variants of Gemma 3 and LLaMA 3. We find that LLM judges increasingly prefer summaries generated by other LLMs over those written by humans as the similarities (as measured by ROUGE and BLEU) between the judged summaries decrease, and this pattern extends to all but one model tested, and exists regardless of the models' own position biases. Additionally, we find that models struggle to judge even summaries with limited overlaps, suggesting that LLM-as-a-judge in the summary domain should rely on techniques beyond a simple comparison.
PDF12February 18, 2026