Слепы к человеческому подходу: систематическая ошибка совпадения в оценке рефератов с помощью больших языковых моделей
Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation
February 7, 2026
Авторы: Jiangnan Fang, Cheng-Tse Liu, Hanieh Deilamsalehy, Nesreen K. Ahmed, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi
cs.AI
Аннотация
Крупные языковые модели (LLM) часто используются в качестве судей наряду с традиционными алгоритмическими метриками для таких задач, как суммаризация, поскольку они лучше улавливают семантическую информацию, обладают более развитыми способностями к рассуждению и более устойчивы к парафразированию. Однако LLM-судьи демонстрируют смещения, в частности, в пользу длины и порядка текста, а также уязвимы к различным адверсарным входным промптам. Хотя в последних исследованиях изучались эти смещения, немногие анализировали их на более детальном уровне в связи с четко определенной метрикой перекрытия. В данной работе мы представляем анализ смещений LLM-судей как функции от степени перекрытия с ответами, написанными человеком, в области суммаризации. Мы тестируем 9 современных LLM с количеством параметров от 1 до 12 миллиардов, включая варианты моделей Gemma 3 и LLaMA 3. Мы обнаружили, что LLM-судьи все чаще предпочитают сводки, сгенерированные другими LLM, а не написанные человеком, по мере уменьшения сходства (измеряемого по ROUGE и BLEU) между оцениваемыми сводками. Данная закономерность распространяется на все протестированные модели, кроме одной, и существует независимо от собственных позиционных смещений моделей. Кроме того, мы выяснили, что модели испытывают трудности с оценкой даже сводок с ограниченным перекрытием, что позволяет предположить, что использование LLM в качестве судьи в области суммаризации должно опираться на методы, выходящие за рамки простого сравнения.
English
Large language model (LLM) judges have often been used alongside traditional, algorithm-based metrics for tasks like summarization because they better capture semantic information, are better at reasoning, and are more robust to paraphrasing. However, LLM judges show biases for length and order among others, and are vulnerable to various adversarial input prompts. While recent studies have looked into these biases, few have analyzed them at a more granular level in relation to a well-defined overlap metric. In this work we provide an LLM judge bias analysis as a function of overlap with human-written responses in the domain of summarization. We test 9 recent LLMs with parameter counts ranging from 1 billion to 12 billion, including variants of Gemma 3 and LLaMA 3. We find that LLM judges increasingly prefer summaries generated by other LLMs over those written by humans as the similarities (as measured by ROUGE and BLEU) between the judged summaries decrease, and this pattern extends to all but one model tested, and exists regardless of the models' own position biases. Additionally, we find that models struggle to judge even summaries with limited overlaps, suggesting that LLM-as-a-judge in the summary domain should rely on techniques beyond a simple comparison.