人間の感性を見失う:LLM要約評価におけるオーバーラップバイアス
Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation
February 7, 2026
著者: Jiangnan Fang, Cheng-Tse Liu, Hanieh Deilamsalehy, Nesreen K. Ahmed, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi
cs.AI
要旨
大規模言語モデル(LLM)判定器は、要約などのタスクにおいて従来のアルゴリズムベースの指標と併用されることが多い。その理由は、意味情報をより適切に捕捉し、推論能力に優れ、言い換えに対する頑健性が高いためである。しかし、LLM判定器は長さや順序などに対するバイアスを示し、様々な敵対的入力プロンプトに対して脆弱である。近年の研究ではこれらのバイアスが調査されているが、明確に定義された重複指標との関連で、より詳細なレベルで分析したものは少ない。本研究では、要約領域において、人間が記述した回答との重複度を関数としたLLM判定器のバイアス分析を提供する。パラメータ数が10億から120億までの範囲に及ぶGemma 3およびLLaMA 3の変種を含む、9つの最近のLLMをテストした。その結果、判定対象の要約間の類似性(ROUGEおよびBLEUで測定)が低下するにつれて、LLM判定器は人間が記述した要約よりも他のLLMが生成した要約を好む傾向が強まり、このパターンはテストしたモデルのうち1つを除く全てで確認され、モデル自身の位置バイアスに関わらず存在することがわかった。さらに、モデルは限定的な重複しかない要約でさえ判定するのに苦労することがわかり、要約領域におけるLLM判定器の利用には、単純な比較を超えた技術に依存すべきであることが示唆される。
English
Large language model (LLM) judges have often been used alongside traditional, algorithm-based metrics for tasks like summarization because they better capture semantic information, are better at reasoning, and are more robust to paraphrasing. However, LLM judges show biases for length and order among others, and are vulnerable to various adversarial input prompts. While recent studies have looked into these biases, few have analyzed them at a more granular level in relation to a well-defined overlap metric. In this work we provide an LLM judge bias analysis as a function of overlap with human-written responses in the domain of summarization. We test 9 recent LLMs with parameter counts ranging from 1 billion to 12 billion, including variants of Gemma 3 and LLaMA 3. We find that LLM judges increasingly prefer summaries generated by other LLMs over those written by humans as the similarities (as measured by ROUGE and BLEU) between the judged summaries decrease, and this pattern extends to all but one model tested, and exists regardless of the models' own position biases. Additionally, we find that models struggle to judge even summaries with limited overlaps, suggesting that LLM-as-a-judge in the summary domain should rely on techniques beyond a simple comparison.