エージェント・アズ・ア・ジャッジ
Agent-as-a-Judge
January 8, 2026
著者: Runyang You, Hongru Cai, Caiqi Zhang, Qiancheng Xu, Meng Liu, Tiezheng Yu, Yongqi Li, Wenjie Li
cs.AI
要旨
LLM-as-a-Judgeは、大規模言語モデルを活用したスケーラブルな評価により、AI評価に革命をもたらしました。しかし、評価対象がますます複雑化・専門化・多段階化するにつれ、LLM-as-a-Judgeの信頼性は、内在するバイアス、浅い単一パス推論、現実世界の観測に基づく評価の検証不能性によって制約を受けるようになりました。これが、Agent-as-a-Judgeへの移行を促進しています。エージェント型評価者は、計画立案、ツール拡張による検証、マルチエージェント協調、永続的メモリを活用することで、より頑健で検証可能かつ繊細な評価を実現します。エージェント型評価システムが急速に普及しているにもかかわらず、この変貌する状況を整理する統一的な枠組みが学界には不足しています。このギャップを埋めるため、我々はこの進化を辿る初の包括的なサーベイを提示します。具体的には、このパラダイムシフトを特徴づける主要な次元を特定し、発展段階に基づく分類体系を確立します。核心的な方法論を体系化し、一般領域および専門領域にわたる応用例を調査します。さらに、最先端の課題を分析し、有望な研究方向性を特定し、最終的には次世代のエージェント型評価のための明確なロードマップを提供します。
English
LLM-as-a-Judge has revolutionized AI evaluation by leveraging large language models for scalable assessments. However, as evaluands become increasingly complex, specialized, and multi-step, the reliability of LLM-as-a-Judge has become constrained by inherent biases, shallow single-pass reasoning, and the inability to verify assessments against real-world observations. This has catalyzed the transition to Agent-as-a-Judge, where agentic judges employ planning, tool-augmented verification, multi-agent collaboration, and persistent memory to enable more robust, verifiable, and nuanced evaluations. Despite the rapid proliferation of agentic evaluation systems, the field lacks a unified framework to navigate this shifting landscape. To bridge this gap, we present the first comprehensive survey tracing this evolution. Specifically, we identify key dimensions that characterize this paradigm shift and establish a developmental taxonomy. We organize core methodologies and survey applications across general and professional domains. Furthermore, we analyze frontier challenges and identify promising research directions, ultimately providing a clear roadmap for the next generation of agentic evaluation.