AJ-Bench: Benchmarking dell'Agente-come-Giudice per la Valutazione Consapevole dell'Ambiente
AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation
April 20, 2026
Autori: Wentao Shi, Yu Wang, Yuyang Zhao, Yuxin Chen, Fuli Feng, Xueyuan Hao, Xi Su, Qi Gu, Hui Su, Xunliang Cai, Xiangnan He
cs.AI
Abstract
Man mano che l'apprendimento per rinforzo continua a scalare l'addestramento di agenti basati su grandi modelli linguistici, la verifica affidabile dei comportamenti degli agenti in ambienti complessi è diventata sempre più impegnativa. Gli approcci esistenti si basano su verificatori basati su regole o modelli LLM-as-a-Judge, che faticano a generalizzare al di là di domini ristretti. Agent-as-a-Judge affronta questa limitazione interagendo attivamente con ambienti e strumenti per acquisire prove verificabili, sebbene le sue capacità rimangano ancora poco esplorate.
Introduciamo un benchmark, AJ-Bench, per valutare sistematicamente Agent-as-a-Judge in tre domini - ricerca, sistemi di dati e interfacce utente grafiche - comprendente 155 task e 516 traiettorie annotate. Il benchmark valuta in modo completo le capacità degli agenti giudice nell'acquisizione di informazioni, nella verifica dello stato e nella verifica del processo. Gli esperimenti dimostrano miglioramenti prestazionali consistenti rispetto ai baseline LLM-as-a-Judge, rivelando al contempo sfide aperte sostanziali nella verifica basata su agenti. I nostri dati e codice sono disponibili su https://aj-bench.github.io/.
English
As reinforcement learning continues to scale the training of large language model-based agents, reliably verifying agent behaviors in complex environments has become increasingly challenging. Existing approaches rely on rule-based verifiers or LLM-as-a-Judge models, which struggle to generalize beyond narrow domains. Agent-as-a-Judge addresses this limitation by actively interacting with environments and tools to acquire verifiable evidence, yet its capabilities remain underexplored.
We introduce a benchmark AJ-Bench to systematically evaluate Agent-as-a-Judge across three domains-search, data systems, and graphical user interfaces-comprising 155 tasks and 516 annotated trajectories. The benchmark comprehensively assesses judge agents' abilities in information acquisition, state verification, and process verification. Experiments demonstrate consistent performance gains over LLM-as-a-Judge baselines, while also revealing substantial open challenges in agent-based verification. Our data and code are available at https://aj-bench.github.io/.