ChatPaper.aiChatPaper

Nem Válido nem Confiável? Investigando o Uso de LLMs como Avaliadores

Neither Valid nor Reliable? Investigating the Use of LLMs as Judges

August 25, 2025
Autores: Khaoula Chehbouni, Mohammed Haddou, Jackie Chi Kit Cheung, Golnoosh Farnadi
cs.AI

Resumo

A avaliação de sistemas de geração de linguagem natural (NLG) continua sendo um desafio central no processamento de linguagem natural (NLP), ainda mais complicado pelo surgimento de grandes modelos de linguagem (LLMs) que visam ser de propósito geral. Recentemente, grandes modelos de linguagem como juízes (LLJs) surgiram como uma alternativa promissora às métricas tradicionais, mas sua validade ainda é pouco explorada. Este artigo de posicionamento argumenta que o entusiasmo atual em torno dos LLJs pode ser prematuro, uma vez que sua adoção superou o escrutínio rigoroso de sua confiabilidade e validade como avaliadores. Com base na teoria da medição das ciências sociais, identificamos e avaliamos criticamente quatro pressupostos fundamentais subjacentes ao uso de LLJs: sua capacidade de atuar como substitutos para o julgamento humano, suas habilidades como avaliadores, sua escalabilidade e sua relação custo-benefício. Examinamos como cada um desses pressupostos pode ser desafiado pelas limitações inerentes dos LLMs, LLJs ou pelas práticas atuais de avaliação de NLG. Para fundamentar nossa análise, exploramos três aplicações dos LLJs: sumarização de texto, anotação de dados e alinhamento de segurança. Por fim, destacamos a necessidade de práticas de avaliação mais responsáveis na avaliação de LLJs, para garantir que seu papel crescente no campo apoie, em vez de prejudicar, o progresso em NLG.
English
Evaluating natural language generation (NLG) systems remains a core challenge of natural language processing (NLP), further complicated by the rise of large language models (LLMs) that aims to be general-purpose. Recently, large language models as judges (LLJs) have emerged as a promising alternative to traditional metrics, but their validity remains underexplored. This position paper argues that the current enthusiasm around LLJs may be premature, as their adoption has outpaced rigorous scrutiny of their reliability and validity as evaluators. Drawing on measurement theory from the social sciences, we identify and critically assess four core assumptions underlying the use of LLJs: their ability to act as proxies for human judgment, their capabilities as evaluators, their scalability, and their cost-effectiveness. We examine how each of these assumptions may be challenged by the inherent limitations of LLMs, LLJs, or current practices in NLG evaluation. To ground our analysis, we explore three applications of LLJs: text summarization, data annotation, and safety alignment. Finally, we highlight the need for more responsible evaluation practices in LLJs evaluation, to ensure that their growing role in the field supports, rather than undermines, progress in NLG.
PDF62August 26, 2025