Cego ao Toque Humano: Viés de Sobreposição na Avaliação de Resumos Baseada em LLM
Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation
February 7, 2026
Autores: Jiangnan Fang, Cheng-Tse Liu, Hanieh Deilamsalehy, Nesreen K. Ahmed, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi
cs.AI
Resumo
Os modelos de linguagem de grande porte (LLM) como juízes têm sido frequentemente utilizados em conjunto com métricas tradicionais baseadas em algoritmos para tarefas como sumarização, pois capturam melhor a informação semântica, possuem melhor capacidade de raciocínio e são mais robustos a paráfrases. No entanto, os LLMs juízes exibem vieses, entre outros, para comprimento e ordem, e são vulneráveis a vários *prompts* de entrada adversariais. Embora estudos recentes tenham investigado esses vieses, poucos os analisaram a um nível mais granular em relação a uma métrica de sobreposição bem definida. Neste trabalho, fornecemos uma análise do viés do LLM como juiz em função da sobreposição com respostas escritas por humanos no domínio da sumarização. Testamos 9 LLMs recentes com contagens de parâmetros variando de 1 bilhão a 12 bilhões, incluindo variantes do Gemma 3 e do LLaMA 3. Descobrimos que os LLMs juízes preferem progressivamente mais os resumos gerados por outros LLMs do que os escritos por humanos à medida que as similaridades (medidas por ROUGE e BLEU) entre os resumos julgados diminuem. Este padrão estende-se a todos os modelos testados, exceto um, e existe independentemente dos vieses de posição dos próprios modelos. Adicionalmente, descobrimos que os modelos têm dificuldade em julgar mesmo resumos com sobreposições limitadas, sugerindo que o uso de LLM-como-juiz no domínio de sumarização deve basear-se em técnicas que vão além de uma simples comparação.
English
Large language model (LLM) judges have often been used alongside traditional, algorithm-based metrics for tasks like summarization because they better capture semantic information, are better at reasoning, and are more robust to paraphrasing. However, LLM judges show biases for length and order among others, and are vulnerable to various adversarial input prompts. While recent studies have looked into these biases, few have analyzed them at a more granular level in relation to a well-defined overlap metric. In this work we provide an LLM judge bias analysis as a function of overlap with human-written responses in the domain of summarization. We test 9 recent LLMs with parameter counts ranging from 1 billion to 12 billion, including variants of Gemma 3 and LLaMA 3. We find that LLM judges increasingly prefer summaries generated by other LLMs over those written by humans as the similarities (as measured by ROUGE and BLEU) between the judged summaries decrease, and this pattern extends to all but one model tested, and exists regardless of the models' own position biases. Additionally, we find that models struggle to judge even summaries with limited overlaps, suggesting that LLM-as-a-judge in the summary domain should rely on techniques beyond a simple comparison.