AJ-Bench: Benchmarking von Agent-als-Richter für umgebungssensitive Evaluation
AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation
April 20, 2026
Autoren: Wentao Shi, Yu Wang, Yuyang Zhao, Yuxin Chen, Fuli Feng, Xueyuan Hao, Xi Su, Qi Gu, Hui Su, Xunliang Cai, Xiangnan He
cs.AI
Zusammenfassung
Da verstärktes Lernen zunehmend das Training von Agenten auf Basis großer Sprachmodelle skaliert, wird die zuverlässige Verifizierung von Agentenverhalten in komplexen Umgebungen zunehmend schwieriger. Bestehende Ansätze stützen sich auf regelbasierte Verifizierer oder LLM-as-a-Judge-Modelle, die über enge Domänen hinaus nur begrenzt generalisieren können. Agent-as-a-Judge adressiert diese Einschränkung, indem es aktiv mit Umgebungen und Werkzeugen interagiert, um überprüfbare Evidenz zu erlangen; dennoch sind seine Fähigkeiten noch unzureichend erforscht.
Wir stellen einen Benchmark AJ-Bench vor, um Agent-as-a-Judge systematisch in drei Domänen – Suche, Datensysteme und grafische Benutzeroberflächen – zu evaluieren, der 155 Aufgaben und 516 annotierte Trajektorien umfasst. Der Benchmark bewertet umfassend die Fähigkeiten von Richter-Agenten in den Bereichen Informationsbeschaffung, Zustandsverifikation und Prozessverifikation. Experimente zeigen konsistent Leistungssteigerungen gegenüber LLM-as-a-Judge-Baselines, verdeutlichen aber auch erhebliche offene Herausforderungen bei der agentenbasierten Verifikation. Unsere Daten und unser Code sind unter https://aj-bench.github.io/ verfügbar.
English
As reinforcement learning continues to scale the training of large language model-based agents, reliably verifying agent behaviors in complex environments has become increasingly challenging. Existing approaches rely on rule-based verifiers or LLM-as-a-Judge models, which struggle to generalize beyond narrow domains. Agent-as-a-Judge addresses this limitation by actively interacting with environments and tools to acquire verifiable evidence, yet its capabilities remain underexplored.
We introduce a benchmark AJ-Bench to systematically evaluate Agent-as-a-Judge across three domains-search, data systems, and graphical user interfaces-comprising 155 tasks and 516 annotated trajectories. The benchmark comprehensively assesses judge agents' abilities in information acquisition, state verification, and process verification. Experiments demonstrate consistent performance gains over LLM-as-a-Judge baselines, while also revealing substantial open challenges in agent-based verification. Our data and code are available at https://aj-bench.github.io/.