인간의 손길을 보지 못하다: LLM 기반 요약 평가에서의 중첩 편향
Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation
February 7, 2026
저자: Jiangnan Fang, Cheng-Tse Liu, Hanieh Deilamsalehy, Nesreen K. Ahmed, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi
cs.AI
초록
대규모 언어 모델(LLM) 판단은 의미 정보를 더 잘 포착하고, 추론 능력이 뛰어나며, 파라프레이징에 더 강건하기 때문에 요약 같은 작업에서 전통적인 알고리즘 기반 평가 지표와 함께 종종 사용되어 왔습니다. 그러나 LLM 판단은 길이와 순서 등에 대한 편향을 보이며, 다양한 적대적 입력 프롬프트에 취약합니다. 최근 연구에서 이러한 편향을 조사했지만, 명확히 정의된 중첩 지표와 연관하여 보다 세부적인 수준에서 분석한 연구는 거의 없었습니다. 본 연구에서는 요약 영역에서 인간이 작성한 응답과의 중첩 정도에 따른 LLM 판단 편향 분석을 제공합니다. 우리는 10억에서 120억 개의 매개변수를 가진 Gemma 3 및 LLaMA 3 변형 모델을 포함한 9개의 최신 LLM을 실험했습니다. 그 결과, 평가 대상 요약문 간 유사도(ROUGE 및 BLEU로 측정)가 감소함에 따라 LLM 판단이 인간이 작성한 요약문보다 다른 LLM이 생성한 요약문을 점점 더 선호하며, 이러한 패턴은 한 모델을 제외한 모든 테스트 모델에서 나타나고, 모델 자체의 위치 편향과 무관하게 존재함을 발견했습니다. 또한 모델들은 제한된 중첩을 가진 요약문을 평가하는 데에도 어려움을 겪는 것으로 나타나, 요약 영역에서 LLM을 판단자로 활용할 때는 단순 비교를 넘어선 기법에 의존해야 함을 시사합니다.
English
Large language model (LLM) judges have often been used alongside traditional, algorithm-based metrics for tasks like summarization because they better capture semantic information, are better at reasoning, and are more robust to paraphrasing. However, LLM judges show biases for length and order among others, and are vulnerable to various adversarial input prompts. While recent studies have looked into these biases, few have analyzed them at a more granular level in relation to a well-defined overlap metric. In this work we provide an LLM judge bias analysis as a function of overlap with human-written responses in the domain of summarization. We test 9 recent LLMs with parameter counts ranging from 1 billion to 12 billion, including variants of Gemma 3 and LLaMA 3. We find that LLM judges increasingly prefer summaries generated by other LLMs over those written by humans as the similarities (as measured by ROUGE and BLEU) between the judged summaries decrease, and this pattern extends to all but one model tested, and exists regardless of the models' own position biases. Additionally, we find that models struggle to judge even summaries with limited overlaps, suggesting that LLM-as-a-judge in the summary domain should rely on techniques beyond a simple comparison.