ChatPaper.aiChatPaper

Ni valide ni fiable ? Enquête sur l'utilisation des LLM comme juges

Neither Valid nor Reliable? Investigating the Use of LLMs as Judges

August 25, 2025
papers.authors: Khaoula Chehbouni, Mohammed Haddou, Jackie Chi Kit Cheung, Golnoosh Farnadi
cs.AI

papers.abstract

L'évaluation des systèmes de génération de langage naturel (NLG) reste un défi central du traitement du langage naturel (NLP), rendu encore plus complexe par l'émergence des grands modèles de langage (LLMs) qui visent à être polyvalents. Récemment, l'utilisation des grands modèles de langage comme évaluateurs (LLJs) est apparue comme une alternative prometteuse aux métriques traditionnelles, mais leur validité reste insuffisamment explorée. Ce document de position soutient que l'enthousiasme actuel autour des LLJs pourrait être prématuré, car leur adoption a devancé un examen rigoureux de leur fiabilité et de leur validité en tant qu'évaluateurs. En nous appuyant sur la théorie de la mesure issue des sciences sociales, nous identifions et évaluons de manière critique quatre hypothèses fondamentales sous-jacentes à l'utilisation des LLJs : leur capacité à servir de substituts au jugement humain, leurs compétences en tant qu'évaluateurs, leur évolutivité et leur rentabilité. Nous examinons comment chacune de ces hypothèses peut être remise en question par les limitations inhérentes aux LLMs, aux LLJs ou aux pratiques actuelles d'évaluation en NLG. Pour ancrer notre analyse, nous explorons trois applications des LLJs : la synthèse de texte, l'annotation de données et l'alignement sur la sécurité. Enfin, nous soulignons la nécessité de pratiques d'évaluation plus responsables dans l'évaluation des LLJs, afin de garantir que leur rôle croissant dans le domaine soutienne, plutôt qu'il ne compromette, les progrès en NLG.
English
Evaluating natural language generation (NLG) systems remains a core challenge of natural language processing (NLP), further complicated by the rise of large language models (LLMs) that aims to be general-purpose. Recently, large language models as judges (LLJs) have emerged as a promising alternative to traditional metrics, but their validity remains underexplored. This position paper argues that the current enthusiasm around LLJs may be premature, as their adoption has outpaced rigorous scrutiny of their reliability and validity as evaluators. Drawing on measurement theory from the social sciences, we identify and critically assess four core assumptions underlying the use of LLJs: their ability to act as proxies for human judgment, their capabilities as evaluators, their scalability, and their cost-effectiveness. We examine how each of these assumptions may be challenged by the inherent limitations of LLMs, LLJs, or current practices in NLG evaluation. To ground our analysis, we explore three applications of LLJs: text summarization, data annotation, and safety alignment. Finally, we highlight the need for more responsible evaluation practices in LLJs evaluation, to ensure that their growing role in the field supports, rather than undermines, progress in NLG.
PDF01August 26, 2025