Blind voor de Menselijke Toets: Overlappingsvooroordeel bij Evaluatie van Samenvattingen op Basis van Taalmodellen

Samenvatting

Grote-taalmodel (LLM) beoordelaars worden vaak naast traditionele, op algoritmen gebaseerde metrieken gebruikt voor taken zoals samenvatting, omdat ze semantische informatie beter vastleggen, beter zijn in redeneren en robuuster zijn tegen parafrasering. LLM-beoordelaars vertonen echter onder andere vooroordelen ten aanzien van lengte en volgorde, en zijn kwetsbaar voor verschillende adversariële invoerprompts. Hoewel recente studies deze vooroordelen hebben onderzocht, hebben er weinig ze op een gedetailleerder niveau geanalyseerd in relatie tot een goed gedefinieerde overlapmetriek. In dit werk presenteren we een biasanalyse van LLM-beoordelaars als een functie van overlap met door mensen geschreven antwoorden binnen het domein van samenvatting. We testen 9 recente LLM's met parameteraantallen variërend van 1 miljard tot 12 miljard, waaronder varianten van Gemma 3 en LLaMA 3. We constateren dat LLM-beoordelaars in toenemende mate samenvattingen die door andere LLM's zijn gegenereerd verkiezen boven die geschreven door mensen naarmate de gelijkenissen (gemeten met ROUGE en BLEU) tussen de beoordeelde samenvattingen afnemen. Dit patroon strekt zich uit tot alle geteste modellen behalve één, en bestaat ongeacht de eigen positiebias van de modellen. Daarnaast stellen we vast dat modellen moeite hebben om zelfs samenvattingen met beperkte overlap te beoordelen, wat suggereert dat LLM-als-beoordelaar in het samenvattingsdomein moet vertrouwen op technieken die verder gaan dan een eenvoudige vergelijking.

English

Large language model (LLM) judges have often been used alongside traditional, algorithm-based metrics for tasks like summarization because they better capture semantic information, are better at reasoning, and are more robust to paraphrasing. However, LLM judges show biases for length and order among others, and are vulnerable to various adversarial input prompts. While recent studies have looked into these biases, few have analyzed them at a more granular level in relation to a well-defined overlap metric. In this work we provide an LLM judge bias analysis as a function of overlap with human-written responses in the domain of summarization. We test 9 recent LLMs with parameter counts ranging from 1 billion to 12 billion, including variants of Gemma 3 and LLaMA 3. We find that LLM judges increasingly prefer summaries generated by other LLMs over those written by humans as the similarities (as measured by ROUGE and BLEU) between the judged summaries decrease, and this pattern extends to all but one model tested, and exists regardless of the models' own position biases. Additionally, we find that models struggle to judge even summaries with limited overlaps, suggesting that LLM-as-a-judge in the summary domain should rely on techniques beyond a simple comparison.

Blind voor de Menselijke Toets: Overlappingsvooroordeel bij Evaluatie van Samenvattingen op Basis van Taalmodellen

Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation

Samenvatting

Support