Ciechi al Tocco Umano: Pregiudizio di Sovrapposizione nella Valutazione di Riassunti Basata su LLM

Abstract

I giudici basati su grandi modelli linguistici (LLM) sono spesso utilizzati insieme alle metriche tradizionali basate su algoritmi per compiti come la summarizzazione, poiché catturano meglio le informazioni semantiche, sono più abili nel ragionamento e più robusti alla parafrasi. Tuttavia, i giudici LLM mostrano pregiudizi, tra gli altri, per la lunghezza e l'ordine, e sono vulnerabili a vari prompt di input avversariali. Sebbene studi recenti abbiano esaminato questi bias, pochi li hanno analizzati a un livello più granulare in relazione a una metrica di sovrapposizione ben definita. In questo lavoro forniamo un'analisi del bias dei giudici LLM in funzione della sovrapposizione con risposte scritte da esseri umani nel dominio della summarizzazione. Testiamo 9 LLM recenti con conteggi di parametri che vanno da 1 a 12 miliardi, includendo varianti di Gemma 3 e LLaMA 3. Scopriamo che i giudici LLM preferiscono sempre più i riassunti generati da altri LLM rispetto a quelli scritti da umani man mano che le somiglianze (misurate da ROUGE e BLEU) tra i riassunti valutati diminuiscono, e questo modello si estende a tutti i modelli testati tranne uno, ed esiste indipendentemente dai bias di posizione dei modelli stessi. Inoltre, scopriamo che i modelli faticano a giudicare anche riassunti con sovrapposizioni limitate, suggerendo che l'utilizzo dell'LLM come giudice nel dominio della summarizzazione dovrebbe basarsi su tecniche che vanno oltre un semplice confronto.

English

Large language model (LLM) judges have often been used alongside traditional, algorithm-based metrics for tasks like summarization because they better capture semantic information, are better at reasoning, and are more robust to paraphrasing. However, LLM judges show biases for length and order among others, and are vulnerable to various adversarial input prompts. While recent studies have looked into these biases, few have analyzed them at a more granular level in relation to a well-defined overlap metric. In this work we provide an LLM judge bias analysis as a function of overlap with human-written responses in the domain of summarization. We test 9 recent LLMs with parameter counts ranging from 1 billion to 12 billion, including variants of Gemma 3 and LLaMA 3. We find that LLM judges increasingly prefer summaries generated by other LLMs over those written by humans as the similarities (as measured by ROUGE and BLEU) between the judged summaries decrease, and this pattern extends to all but one model tested, and exists regardless of the models' own position biases. Additionally, we find that models struggle to judge even summaries with limited overlaps, suggesting that LLM-as-a-judge in the summary domain should rely on techniques beyond a simple comparison.

Ciechi al Tocco Umano: Pregiudizio di Sovrapposizione nella Valutazione di Riassunti Basata su LLM

Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation

Abstract

Support