Агент как судья
Agent-as-a-Judge
January 8, 2026
Авторы: Runyang You, Hongru Cai, Caiqi Zhang, Qiancheng Xu, Meng Liu, Tiezheng Yu, Yongqi Li, Wenjie Li
cs.AI
Аннотация
Парадигма "LLM-как-оценщик" произвела революцию в оценке ИИ, используя большие языковые модели для масштабируемых оценок. Однако по мере того, как оцениваемые системы становятся все более сложными, специализированными и многоэтапными, надежность данного подхода оказалась ограничена присущими ему предубеждениями, поверхностным одношаговым рассуждением и неспособностью проверять оценки на основе наблюдений за реальным миром. Это стимулировало переход к парадигме "Агент-как-оценщик", в которой агенты-оценщики используют планирование, проверку с помощью инструментов, многопользовательское взаимодействие и постоянную память для обеспечения более надежных, проверяемых и детальных оценок. Несмотря на быстрое распространение агентских систем оценки, в данной области отсутствует единая система координат для навигации в этом меняющемся ландшафте. Чтобы заполнить этот пробел, мы представляем первое всестороннее исследование, прослеживающее эту эволюцию. В частности, мы определяем ключевые параметры, характеризующие этот сдвиг парадигмы, и устанавливаем таксономию развития. Мы систематизируем основные методологии и рассматриваем приложения в общих и профессиональных областях. Кроме того, мы анализируем ключевые проблемы и определяем перспективные направления исследований, предлагая, в конечном счете, четкий план для создания следующего поколения агентской оценки.
English
LLM-as-a-Judge has revolutionized AI evaluation by leveraging large language models for scalable assessments. However, as evaluands become increasingly complex, specialized, and multi-step, the reliability of LLM-as-a-Judge has become constrained by inherent biases, shallow single-pass reasoning, and the inability to verify assessments against real-world observations. This has catalyzed the transition to Agent-as-a-Judge, where agentic judges employ planning, tool-augmented verification, multi-agent collaboration, and persistent memory to enable more robust, verifiable, and nuanced evaluations. Despite the rapid proliferation of agentic evaluation systems, the field lacks a unified framework to navigate this shifting landscape. To bridge this gap, we present the first comprehensive survey tracing this evolution. Specifically, we identify key dimensions that characterize this paradigm shift and establish a developmental taxonomy. We organize core methodologies and survey applications across general and professional domains. Furthermore, we analyze frontier challenges and identify promising research directions, ultimately providing a clear roadmap for the next generation of agentic evaluation.