Siamo sulla strada giusta per valutare l'LLM come giudice?
Are We on the Right Way to Assessing LLM-as-a-Judge?
December 17, 2025
Autori: Yuanning Feng, Sinan Wang, Zhengxiang Cheng, Yao Wan, Dongping Chen
cs.AI
Abstract
LLM-as-a-Judge è stato ampiamente adottato come metodo di valutazione e utilizzato come ricompensa supervisionata nell'addestramento dei modelli. Tuttavia, i benchmark esistenti per LLM-as-a-Judge si basano principalmente su ground truth annotati da esseri umani, il che introduce un bias umano che mina la valutazione dell'affidabilità e impone vincoli di scalabilità. Per superare queste limitazioni, introduciamo Sage, una nuova suite di valutazione che valuta la qualità dei giudici LLM senza necessitare di alcuna annotazione umana. Ispirandosi agli assiomi della teoria della scelta razionale, Sage introduce due nuove lenti per misurare LLM-as-a-Judge: l'autoconsistenza locale (stabilità delle preferenze a coppie) e la consistenza logica globale (transitività attraverso un insieme completo di preferenze). Abbiamo curato un dataset di 650 domande combinando problemi di benchmark strutturati con query di utenti reali. I nostri esperimenti dimostrano sia la stabilità delle nostre metriche che la loro alta correlazione con benchmark supervisionati come LLMBar e RewardBench2, confermando l'affidabilità di Sage come suite di valutazione per la robustezza e l'accuratezza di LLM-as-a-Judge. Basandoci su Sage, riveliamo che gli attuali LLM all'avanguardia presentano problemi di affidabilità significativi quando agiscono come giudici sia in contesti di punteggio che di confronto a coppie; anche i modelli con le prestazioni migliori, Gemini-2.5-Pro e GPT-5, non riescono a mantenere preferenze consistenti in quasi un quarto dei casi difficili. Attribuiamo ciò a un nuovo fenomeno chiamato preferenza situazionale, che spiega perché rubriche o criteri espliciti possono aiutare il modello a giudicare in modo coerente tra coppie di risposte. La nostra ulteriore analisi mostra che LLM-as-a-Judge affinato è un metodo fattibile per migliorare le prestazioni, e che il giudice basato su panel così come il ragionamento profondo possono migliorare la coerenza del giudizio. Troviamo inoltre un'incongruenza sostanziale nei giudizi umani, il che indica che l'annotazione umana potrebbe non essere uno standard di riferimento affidabile.
English
LLM-as-a-Judge has been widely adopted as an evaluation method and served as supervised rewards in model training. However, existing benchmarks for LLM-as-a-Judge are mainly relying on human-annotated ground truth, which introduces human bias that undermines the assessment of reliability and imposes scalability constraints. To overcome these limitations, we introduce Sage, a novel evaluation suite that assesses the quality of LLM judges without necessitating any human annotation. Inspired by axioms of rational choice theory, Sage introduces two new lenses for measuring LLM-as-a-Judge: local self-consistency (pair-wise preference stability) and global logical consistency (transitivity across a full set of preferences). We curate a dataset of 650 questions by combining structured benchmark problems with real-world user queries. Our experiments demonstrate both the stability of our metrics and their high correlation with supervised benchmarks like LLMBar and RewardBench2, confirming Sage's reliability as an evaluation suite for the robustness and accuracy of LLM-as-a-Judge. Based on Sage, we reveal that current state-of-the-art LLMs exhibit significant reliability problems when acting as judges in both scoring and pairwise settings; even the top-performing models, Gemini-2.5-Pro and GPT-5, fail to maintain consistent preferences in nearly a quarter of difficult cases. We attribute this to a new phenomenon called situational preference, which explains why explicit rubrics or criteria can help the model judge consistently across answer pairs. Our further analysis shows that finetuned LLM-as-a-Judge is a feasible method to boost performance, and the panel-based judge as well as deep reasoning can enhance the judging consistency. We also find substantial inconsistency in human judgments, which indicates that human annotation may not be a reliable gold standard.