Weder valide noch zuverlässig? Untersuchung der Nutzung von LLMs als Bewertungsinstanzen
Neither Valid nor Reliable? Investigating the Use of LLMs as Judges
August 25, 2025
papers.authors: Khaoula Chehbouni, Mohammed Haddou, Jackie Chi Kit Cheung, Golnoosh Farnadi
cs.AI
papers.abstract
Die Bewertung von Systemen zur natürlichen Sprachgenerierung (Natural Language Generation, NLG) bleibt eine zentrale Herausforderung der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), die durch den Aufstieg großer Sprachmodelle (Large Language Models, LLMs), die als allgemeine Werkzeuge konzipiert sind, weiter verkompliziert wird. In jüngster Zeit haben sich große Sprachmodelle als Bewerter (Large Language Models as Judges, LLJs) als vielversprechende Alternative zu traditionellen Metriken etabliert, doch ihre Validität bleibt unzureichend erforscht. Dieses Positionspapier argumentiert, dass die derzeitige Begeisterung für LLJs möglicherweise verfrüht ist, da ihre Einführung einer rigorosen Überprüfung ihrer Zuverlässigkeit und Validität als Bewertungswerkzeuge vorauseilt. Unter Bezugnahme auf die Messtheorie aus den Sozialwissenschaften identifizieren und bewerten wir kritisch vier Kernannahmen, die der Verwendung von LLJs zugrunde liegen: ihre Fähigkeit, als Stellvertreter für menschliche Urteile zu fungieren, ihre Kompetenzen als Bewerter, ihre Skalierbarkeit und ihre Kosteneffizienz. Wir untersuchen, wie jede dieser Annahmen durch die inhärenten Grenzen von LLMs, LLJs oder aktuellen Praktiken in der NLG-Bewertung infrage gestellt werden könnte. Um unsere Analyse zu untermauern, beleuchten wir drei Anwendungsbereiche von LLJs: Textzusammenfassung, Datenannotation und Sicherheitsausrichtung. Abschließend betonen wir die Notwendigkeit verantwortungsvollerer Bewertungspraktiken bei der Evaluierung von LLJs, um sicherzustellen, dass ihre wachsende Rolle im Feld den Fortschritt in der NLG unterstützt und nicht untergräbt.
English
Evaluating natural language generation (NLG) systems remains a core challenge
of natural language processing (NLP), further complicated by the rise of large
language models (LLMs) that aims to be general-purpose. Recently, large
language models as judges (LLJs) have emerged as a promising alternative to
traditional metrics, but their validity remains underexplored. This position
paper argues that the current enthusiasm around LLJs may be premature, as their
adoption has outpaced rigorous scrutiny of their reliability and validity as
evaluators. Drawing on measurement theory from the social sciences, we identify
and critically assess four core assumptions underlying the use of LLJs: their
ability to act as proxies for human judgment, their capabilities as evaluators,
their scalability, and their cost-effectiveness. We examine how each of these
assumptions may be challenged by the inherent limitations of LLMs, LLJs, or
current practices in NLG evaluation. To ground our analysis, we explore three
applications of LLJs: text summarization, data annotation, and safety
alignment. Finally, we highlight the need for more responsible evaluation
practices in LLJs evaluation, to ensure that their growing role in the field
supports, rather than undermines, progress in NLG.