ChatPaper.aiChatPaper

Aveugle au toucher humain : Biais de chevauchement dans l'évaluation de résumés par LLM

Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation

February 7, 2026
papers.authors: Jiangnan Fang, Cheng-Tse Liu, Hanieh Deilamsalehy, Nesreen K. Ahmed, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLM) utilisés comme juges sont souvent employés parallèlement aux métriques algorithmiques traditionnelles pour des tâches comme la synthèse de texte, car ils capturent mieux l'information sémantique, possèdent de meilleures capacités de raisonnement et sont plus robustes face à la paraphrase. Cependant, les juges LLM présentent des biais en faveur de la longueur et de l'ordre, entre autres, et sont vulnérables à diverses attaques par des invites adverses. Bien que des études récentes aient examiné ces biais, peu les ont analysés à un niveau plus granulaire en relation avec une métrique de chevauchement bien définie. Dans ce travail, nous proposons une analyse des biais des juges LLM en fonction du chevauchement avec des réponses rédigées par des humains dans le domaine de la synthèse. Nous testons 9 LLM récents dont les nombres de paramètres varient de 1 à 12 milliards, incluant des variantes de Gemma 3 et LLaMA 3. Nous constatons que les juges LLM préfèrent de plus en plus les résumés générés par d'autres LLM par rapport à ceux écrits par des humains à mesure que les similarités (mesurées par ROUGE et BLEU) entre les résumés évalués diminuent. Ce schéma s'étend à tous les modèles testés sauf un, et persiste indépendamment des biais de position propres aux modèles. De plus, nous observons que les modèles ont des difficultés à évaluer même des résumés présentant des chevauchements limités, ce qui suggère que l'utilisation des LLM comme juges dans le domaine de la synthèse devrait reposer sur des techniques dépassant une simple comparaison.
English
Large language model (LLM) judges have often been used alongside traditional, algorithm-based metrics for tasks like summarization because they better capture semantic information, are better at reasoning, and are more robust to paraphrasing. However, LLM judges show biases for length and order among others, and are vulnerable to various adversarial input prompts. While recent studies have looked into these biases, few have analyzed them at a more granular level in relation to a well-defined overlap metric. In this work we provide an LLM judge bias analysis as a function of overlap with human-written responses in the domain of summarization. We test 9 recent LLMs with parameter counts ranging from 1 billion to 12 billion, including variants of Gemma 3 and LLaMA 3. We find that LLM judges increasingly prefer summaries generated by other LLMs over those written by humans as the similarities (as measured by ROUGE and BLEU) between the judged summaries decrease, and this pattern extends to all but one model tested, and exists regardless of the models' own position biases. Additionally, we find that models struggle to judge even summaries with limited overlaps, suggesting that LLM-as-a-judge in the summary domain should rely on techniques beyond a simple comparison.
PDF12February 18, 2026