ChatPaper.aiChatPaper

Né Validi né Affidabili? Un'Indagine sull'Uso degli LLM come Giudici

Neither Valid nor Reliable? Investigating the Use of LLMs as Judges

August 25, 2025
Autori: Khaoula Chehbouni, Mohammed Haddou, Jackie Chi Kit Cheung, Golnoosh Farnadi
cs.AI

Abstract

La valutazione dei sistemi di generazione del linguaggio naturale (NLG) rimane una sfida fondamentale nell'elaborazione del linguaggio naturale (NLP), ulteriormente complicata dall'ascesa dei modelli linguistici su larga scala (LLM) che mirano a essere di uso generale. Recentemente, i modelli linguistici su larga scala come giudici (LLJ) sono emersi come una promettente alternativa alle metriche tradizionali, ma la loro validità rimane poco esplorata. Questo position paper sostiene che l'attuale entusiasmo per gli LLJ potrebbe essere prematuro, poiché la loro adozione ha superato un esame rigoroso della loro affidabilità e validità come valutatori. Attingendo alla teoria della misurazione delle scienze sociali, identifichiamo e valutiamo criticamente quattro presupposti fondamentali alla base dell'uso degli LLJ: la loro capacità di fungere da proxy per il giudizio umano, le loro competenze come valutatori, la loro scalabilità e la loro convenienza economica. Esaminiamo come ciascuno di questi presupposti possa essere messo in discussione dalle limitazioni intrinseche degli LLM, degli LLJ o dalle pratiche attuali nella valutazione dell'NLG. Per fondare la nostra analisi, esploriamo tre applicazioni degli LLJ: riassunto di testi, annotazione di dati e allineamento alla sicurezza. Infine, sottolineiamo la necessità di pratiche di valutazione più responsabili nella valutazione degli LLJ, per garantire che il loro ruolo crescente nel campo sostenga, anziché minare, il progresso nell'NLG.
English
Evaluating natural language generation (NLG) systems remains a core challenge of natural language processing (NLP), further complicated by the rise of large language models (LLMs) that aims to be general-purpose. Recently, large language models as judges (LLJs) have emerged as a promising alternative to traditional metrics, but their validity remains underexplored. This position paper argues that the current enthusiasm around LLJs may be premature, as their adoption has outpaced rigorous scrutiny of their reliability and validity as evaluators. Drawing on measurement theory from the social sciences, we identify and critically assess four core assumptions underlying the use of LLJs: their ability to act as proxies for human judgment, their capabilities as evaluators, their scalability, and their cost-effectiveness. We examine how each of these assumptions may be challenged by the inherent limitations of LLMs, LLJs, or current practices in NLG evaluation. To ground our analysis, we explore three applications of LLJs: text summarization, data annotation, and safety alignment. Finally, we highlight the need for more responsible evaluation practices in LLJs evaluation, to ensure that their growing role in the field supports, rather than undermines, progress in NLG.
PDF62August 26, 2025