Недостоверно и ненадежно? Исследование использования языковых моделей в качестве судей
Neither Valid nor Reliable? Investigating the Use of LLMs as Judges
August 25, 2025
Авторы: Khaoula Chehbouni, Mohammed Haddou, Jackie Chi Kit Cheung, Golnoosh Farnadi
cs.AI
Аннотация
Оценка систем генерации естественного языка (NLG) остается одной из ключевых задач в области обработки естественного языка (NLP), что усложняется появлением крупных языковых моделей (LLM), которые стремятся быть универсальными. В последнее время крупные языковые модели в роли судей (LLJ) стали перспективной альтернативой традиционным метрикам, однако их валидность остается недостаточно изученной. В данной позиционной статье утверждается, что нынешний энтузиазм вокруг LLJ может быть преждевременным, поскольку их внедрение опережает тщательную проверку их надежности и валидности в качестве инструментов оценки. Опираясь на теорию измерений из социальных наук, мы выделяем и критически анализируем четыре ключевых предположения, лежащих в основе использования LLJ: их способность выступать в качестве заместителей человеческого суждения, их возможности как оценочных инструментов, их масштабируемость и экономическая эффективность. Мы исследуем, как каждое из этих предположений может быть поставлено под сомнение из-за присущих ограничений LLM, LLJ или текущих практик оценки NLG. Для обоснования нашего анализа мы рассматриваем три применения LLJ: суммаризация текста, аннотирование данных и обеспечение безопасности. В заключение мы подчеркиваем необходимость более ответственных практик оценки LLJ, чтобы их растущая роль в этой области способствовала, а не подрывала прогресс в NLG.
English
Evaluating natural language generation (NLG) systems remains a core challenge
of natural language processing (NLP), further complicated by the rise of large
language models (LLMs) that aims to be general-purpose. Recently, large
language models as judges (LLJs) have emerged as a promising alternative to
traditional metrics, but their validity remains underexplored. This position
paper argues that the current enthusiasm around LLJs may be premature, as their
adoption has outpaced rigorous scrutiny of their reliability and validity as
evaluators. Drawing on measurement theory from the social sciences, we identify
and critically assess four core assumptions underlying the use of LLJs: their
ability to act as proxies for human judgment, their capabilities as evaluators,
their scalability, and their cost-effectiveness. We examine how each of these
assumptions may be challenged by the inherent limitations of LLMs, LLJs, or
current practices in NLG evaluation. To ground our analysis, we explore three
applications of LLJs: text summarization, data annotation, and safety
alignment. Finally, we highlight the need for more responsible evaluation
practices in LLJs evaluation, to ensure that their growing role in the field
supports, rather than undermines, progress in NLG.