Noch valide noch betrouwbaar? Onderzoek naar het gebruik van LLM's als beoordelaars
Neither Valid nor Reliable? Investigating the Use of LLMs as Judges
August 25, 2025
Auteurs: Khaoula Chehbouni, Mohammed Haddou, Jackie Chi Kit Cheung, Golnoosh Farnadi
cs.AI
Samenvatting
Het evalueren van systemen voor natuurlijke taalgeneratie (NLG) blijft een kernuitdaging binnen natuurlijke taalverwerking (NLP), wat verder wordt bemoeilijkt door de opkomst van grote taalmodel(len) (LLMs) die algemeen toepasbaar willen zijn. Recentelijk zijn grote taalmodel(len) als beoordelaars (LLJs) naar voren gekomen als een veelbelovend alternatief voor traditionele metrieken, maar hun validiteit blijft onderbelicht. Dit position paper betoogt dat het huidige enthousiasme rond LLJs mogelijk voorbarig is, aangezien hun adoptie de rigoureuze controle van hun betrouwbaarheid en validiteit als evaluatoren heeft overtroffen. Gebaseerd op meettheorie uit de sociale wetenschappen, identificeren en beoordelen we kritisch vier kernveronderstellingen die ten grondslag liggen aan het gebruik van LLJs: hun vermogen om als proxy voor menselijk oordeel te fungeren, hun capaciteiten als evaluatoren, hun schaalbaarheid en hun kosteneffectiviteit. We onderzoeken hoe elk van deze veronderstellingen kan worden uitgedaagd door de inherente beperkingen van LLMs, LLJs of huidige praktijken in NLG-evaluatie. Om onze analyse te onderbouwen, verkennen we drie toepassingen van LLJs: tekstsamenvatting, data-annotatie en veiligheidsafstemming. Tot slot benadrukken we de noodzaak van meer verantwoorde evaluatiepraktijken bij de evaluatie van LLJs, om ervoor te zorgen dat hun groeiende rol in het veld de vooruitgang in NLG ondersteunt in plaats van ondermijnt.
English
Evaluating natural language generation (NLG) systems remains a core challenge
of natural language processing (NLP), further complicated by the rise of large
language models (LLMs) that aims to be general-purpose. Recently, large
language models as judges (LLJs) have emerged as a promising alternative to
traditional metrics, but their validity remains underexplored. This position
paper argues that the current enthusiasm around LLJs may be premature, as their
adoption has outpaced rigorous scrutiny of their reliability and validity as
evaluators. Drawing on measurement theory from the social sciences, we identify
and critically assess four core assumptions underlying the use of LLJs: their
ability to act as proxies for human judgment, their capabilities as evaluators,
their scalability, and their cost-effectiveness. We examine how each of these
assumptions may be challenged by the inherent limitations of LLMs, LLJs, or
current practices in NLG evaluation. To ground our analysis, we explore three
applications of LLJs: text summarization, data annotation, and safety
alignment. Finally, we highlight the need for more responsible evaluation
practices in LLJs evaluation, to ensure that their growing role in the field
supports, rather than undermines, progress in NLG.