TrustJudge: Несоответствия в использовании LLM в качестве судьи и способы их устранения
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
September 25, 2025
Авторы: Yidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang
cs.AI
Аннотация
Применение крупных языковых моделей (LLM) в качестве автоматических оценщиков (LLM-as-a-judge) выявило существенные несоответствия в современных системах оценки. Мы выделяем два фундаментальных типа несоответствий: (1) Несоответствие в сравнении оценок, когда ответы с более низкими рейтингами превосходят ответы с более высокими в попарных сравнениях, и (2) Несоответствие транзитивности в попарных сравнениях, проявляющееся в виде циклических цепочек предпочтений (A>B>C>A) и противоречий эквивалентности (A=B=C≠A). Мы утверждаем, что эти проблемы возникают из-за потери информации в дискретных системах оценки и неоднозначных суждений о равенстве в процессе попарного сравнения. Мы предлагаем TrustJudge, вероятностный фреймворк, который устраняет эти ограничения с помощью двух ключевых инноваций: 1) оценка, чувствительная к распределению, которая вычисляет непрерывные ожидания на основе вероятностей дискретных оценок, сохраняя информационную энтропию для более точного оценивания, и 2) агрегация с учетом вероятностей, которая устраняет нарушения транзитивности с использованием двунаправленных вероятностей предпочтений или перплексии. Мы также формализуем теоретические ограничения текущих фреймворков LLM-as-a-judge и показываем, как компоненты TrustJudge преодолевают их. При оценке с использованием Llama-3.1-70B-Instruct в качестве судьи на нашем наборе данных, TrustJudge снижает несоответствие в сравнении оценок на 8.43% (с 23.32% до 14.89%) и несоответствие транзитивности в попарных сравнениях на 10.82% (с 15.22% до 4.40%), сохраняя при этом более высокую точность оценки. Наша работа представляет первый систематический анализ несоответствий в системах оценки в парадигме LLM-as-a-judge, предлагая как теоретические инсайты, так и практические решения для надежной автоматической оценки. Фреймворк демонстрирует стабильные улучшения для различных архитектур и масштабов моделей, обеспечивая более доверенную оценку LLM без необходимости дополнительного обучения или аннотаций от человека. Код доступен по адресу https://github.com/TrustJudge/TrustJudge.
English
The adoption of Large Language Models (LLMs) as automated evaluators
(LLM-as-a-judge) has revealed critical inconsistencies in current evaluation
frameworks. We identify two fundamental types of inconsistencies: (1)
Score-Comparison Inconsistency, where lower-rated responses outperform
higher-scored ones in pairwise comparisons, and (2) Pairwise Transitivity
Inconsistency, manifested through circular preference chains (A>B>C>A) and
equivalence contradictions (A=B=C\neq A). We argue that these issues come from
information loss in discrete rating systems and ambiguous tie judgments during
pairwise evaluation. We propose TrustJudge, a probabilistic framework that
addresses these limitations through two key innovations: 1)
distribution-sensitive scoring that computes continuous expectations from
discrete rating probabilities, preserving information entropy for more precise
scoring, and 2) likelihood-aware aggregation that resolves transitivity
violations using bidirectional preference probabilities or perplexity. We also
formalize the theoretical limitations of current LLM-as-a-judge frameworks and
demonstrate how TrustJudge's components overcome them. When evaluated with
Llama-3.1-70B-Instruct as judge using our dataset, TrustJudge reduces
Score-Comparison inconsistency by 8.43% (from 23.32% to 14.89%) and Pairwise
Transitivity inconsistency by 10.82% (from 15.22% to 4.40%), while maintaining
higher evaluation accuracy. Our work provides the first systematic analysis of
evaluation framework inconsistencies in LLM-as-a-judge paradigms, offering both
theoretical insights and practical solutions for reliable automated assessment.
The framework demonstrates consistent improvements across various model
architectures and scales, enabling more trustworthy LLM evaluation without
requiring additional training or human annotations. The codes can be found at
https://github.com/TrustJudge/TrustJudge.