ChatPaper.aiChatPaper

Agent-en-tant-que-Juge

Agent-as-a-Judge

January 8, 2026
papers.authors: Runyang You, Hongru Cai, Caiqi Zhang, Qiancheng Xu, Meng Liu, Tiezheng Yu, Yongqi Li, Wenjie Li
cs.AI

papers.abstract

Le paradigme LLM-en-tant-que-juge a révolutionné l'évaluation de l'IA en exploitant les modèles de langage à grande échelle pour des évaluations massives. Cependant, à mesure que les systèmes évalués deviennent plus complexes, spécialisés et multi-étapes, la fiabilité de cette approche est limitée par des biais inhérents, un raisonnement superficiel en une seule passe et l'incapacité de vérifier les évaluations par rapport à des observations du monde réel. Cela a catalysé la transition vers l'Agent-en-tant-que-juge, où des juges agentiels utilisent la planification, la vérification par outils, la collaboration multi-agents et une mémoire persistante pour permettre des évaluations plus robustes, vérifiables et nuancées. Malgré la prolifération rapide des systèmes d'évaluation agentiels, le domaine manque d'un cadre unifié pour naviguer dans ce paysage en mutation. Pour combler cette lacune, nous présentons la première étude complète retraçant cette évolution. Plus précisément, nous identifions les dimensions clés qui caractérisent ce changement de paradigme et établissons une taxonomie développementale. Nous organisons les méthodologies principales et examinons les applications dans les domaines généraux et professionnels. De plus, nous analysons les défis de pointe et identifions des axes de recherche prometteurs, fournissant finalement une feuille de route claire pour la prochaine génération de l'évaluation agentielle.
English
LLM-as-a-Judge has revolutionized AI evaluation by leveraging large language models for scalable assessments. However, as evaluands become increasingly complex, specialized, and multi-step, the reliability of LLM-as-a-Judge has become constrained by inherent biases, shallow single-pass reasoning, and the inability to verify assessments against real-world observations. This has catalyzed the transition to Agent-as-a-Judge, where agentic judges employ planning, tool-augmented verification, multi-agent collaboration, and persistent memory to enable more robust, verifiable, and nuanced evaluations. Despite the rapid proliferation of agentic evaluation systems, the field lacks a unified framework to navigate this shifting landscape. To bridge this gap, we present the first comprehensive survey tracing this evolution. Specifically, we identify key dimensions that characterize this paradigm shift and establish a developmental taxonomy. We organize core methodologies and survey applications across general and professional domains. Furthermore, we analyze frontier challenges and identify promising research directions, ultimately providing a clear roadmap for the next generation of agentic evaluation.
PDF60January 10, 2026