ChatPaper.aiChatPaper

¿Ni válido ni confiable? Investigando el uso de LLMs como evaluadores

Neither Valid nor Reliable? Investigating the Use of LLMs as Judges

August 25, 2025
Autores: Khaoula Chehbouni, Mohammed Haddou, Jackie Chi Kit Cheung, Golnoosh Farnadi
cs.AI

Resumen

La evaluación de los sistemas de generación de lenguaje natural (NLG, por sus siglas en inglés) sigue siendo un desafío central en el procesamiento del lenguaje natural (NLP), complicado aún más por el auge de los modelos de lenguaje de gran escala (LLMs) que aspiran a ser de propósito general. Recientemente, los modelos de lenguaje de gran escala como jueces (LLJs) han surgido como una alternativa prometedora a las métricas tradicionales, pero su validez sigue siendo poco explorada. Este documento de posición argumenta que el entusiasmo actual en torno a los LLJs podría ser prematuro, ya que su adopción ha superado el escrutinio riguroso de su fiabilidad y validez como evaluadores. Basándonos en la teoría de la medición de las ciencias sociales, identificamos y evaluamos críticamente cuatro supuestos fundamentales que subyacen al uso de los LLJs: su capacidad para actuar como sustitutos del juicio humano, sus habilidades como evaluadores, su escalabilidad y su rentabilidad. Examinamos cómo cada uno de estos supuestos puede ser cuestionado por las limitaciones inherentes de los LLMs, los LLJs o las prácticas actuales en la evaluación de NLG. Para fundamentar nuestro análisis, exploramos tres aplicaciones de los LLJs: la resumenización de textos, la anotación de datos y la alineación de seguridad. Finalmente, destacamos la necesidad de prácticas de evaluación más responsables en la evaluación de los LLJs, para garantizar que su creciente papel en el campo apoye, en lugar de socavar, el progreso en la NLG.
English
Evaluating natural language generation (NLG) systems remains a core challenge of natural language processing (NLP), further complicated by the rise of large language models (LLMs) that aims to be general-purpose. Recently, large language models as judges (LLJs) have emerged as a promising alternative to traditional metrics, but their validity remains underexplored. This position paper argues that the current enthusiasm around LLJs may be premature, as their adoption has outpaced rigorous scrutiny of their reliability and validity as evaluators. Drawing on measurement theory from the social sciences, we identify and critically assess four core assumptions underlying the use of LLJs: their ability to act as proxies for human judgment, their capabilities as evaluators, their scalability, and their cost-effectiveness. We examine how each of these assumptions may be challenged by the inherent limitations of LLMs, LLJs, or current practices in NLG evaluation. To ground our analysis, we explore three applications of LLJs: text summarization, data annotation, and safety alignment. Finally, we highlight the need for more responsible evaluation practices in LLJs evaluation, to ensure that their growing role in the field supports, rather than undermines, progress in NLG.
PDF01August 26, 2025