Agent-als-Richter
Agent-as-a-Judge
January 8, 2026
papers.authors: Runyang You, Hongru Cai, Caiqi Zhang, Qiancheng Xu, Meng Liu, Tiezheng Yu, Yongqi Li, Wenjie Li
cs.AI
papers.abstract
LLM-as-a-Judge hat die KI-Evaluation revolutioniert, indem es große Sprachmodelle für skalierbare Bewertungen nutzt. Da die zu bewertenden Systeme jedoch zunehmend komplexer, spezialisierter und mehrstufiger werden, ist die Zuverlässigkeit von LLM-as-a-Judge durch inhärente Verzerrungen, oberflächliches Einzel-Durchgangs-Denken und die Unfähigkeit, Bewertungen anhand realer Beobachtungen zu überprüfen, eingeschränkt. Dies hat den Übergang zu Agent-as-a-Judge beschleunigt, bei dem agentenbasierte Bewertungssysteme Planung, werkzeuggestützte Verifikation, Multi-Agenten-Kollaboration und persistente Speicherung nutzen, um robustere, überprüfbarere und nuanciertere Evaluationen zu ermöglichen. Trotz der raschen Verbreitung agentenbasierter Bewertungssysteme fehlt dem Feld ein einheitlicher Rahmen, um diesen Wandel zu navigieren. Um diese Lücke zu schließen, präsentieren wir die erste umfassende Übersichtsarbeit, die diese Entwicklung nachzeichnet. Konkret identifizieren wir Schlüsseldimensionen, die diesen Paradigmenwechsel kennzeichnen, und entwickeln eine Entwicklungstaxonomie. Wir systematisieren die Kernmethoden und untersuchen Anwendungen in allgemeinen und professionellen Domänen. Darüber hinaus analysieren wir aktuelle Herausforderungen und zeigen vielversprechende Forschungsrichtungen auf, um letztendlich eine klare Roadmap für die nächste Generation agentenbasierter Evaluation zu liefern.
English
LLM-as-a-Judge has revolutionized AI evaluation by leveraging large language models for scalable assessments. However, as evaluands become increasingly complex, specialized, and multi-step, the reliability of LLM-as-a-Judge has become constrained by inherent biases, shallow single-pass reasoning, and the inability to verify assessments against real-world observations. This has catalyzed the transition to Agent-as-a-Judge, where agentic judges employ planning, tool-augmented verification, multi-agent collaboration, and persistent memory to enable more robust, verifiable, and nuanced evaluations. Despite the rapid proliferation of agentic evaluation systems, the field lacks a unified framework to navigate this shifting landscape. To bridge this gap, we present the first comprehensive survey tracing this evolution. Specifically, we identify key dimensions that characterize this paradigm shift and establish a developmental taxonomy. We organize core methodologies and survey applications across general and professional domains. Furthermore, we analyze frontier challenges and identify promising research directions, ultimately providing a clear roadmap for the next generation of agentic evaluation.