AJ-Bench: Benchmarking van Agent-als-Rechter voor Omgevingsbewuste Evaluatie

Samenvatting

Naarmate reinforcement learning de training van op grote taalmodellen gebaseerde agenten verder opschaalt, is het betrouwbaar verifiëren van agentgedrag in complexe omgevingen steeds uitdagender geworden. Bestaande benaderingen vertrouwen op op regels gebaseerde verifiers of LLM-as-a-Judge-modellen, die moeite hebben om verder te generaliseren dan smalle domeinen. Agent-as-a-Judge lost deze beperking op door actief te interageren met omgevingen en tools om verifieerbaar bewijsmateriaal te vergaren, hoewel de mogelijkheden ervan nog onvoldoende zijn onderzocht. Wij introduceren een benchmark AJ-Bench om Agent-as-a-Judge systematisch te evalueren in drie domeinen - zoeken, datasystemen en grafische gebruikersinterfaces - bestaande uit 155 taken en 516 geannoteerde trajecten. De benchmark beoordeelt uitgebreid de vaardigheden van judge-agenten op het gebied van informatieverwerving, statusverificatie en procesverificatie. Experimenten tonen consistente prestatieverbeteringen aan ten opzichte van LLM-as-a-Judge-basislijnen, terwijl ze ook substantiële open uitdagingen in op agenten gebaseerde verificatie blootleggen. Onze data en code zijn beschikbaar op https://aj-bench.github.io/.

English

As reinforcement learning continues to scale the training of large language model-based agents, reliably verifying agent behaviors in complex environments has become increasingly challenging. Existing approaches rely on rule-based verifiers or LLM-as-a-Judge models, which struggle to generalize beyond narrow domains. Agent-as-a-Judge addresses this limitation by actively interacting with environments and tools to acquire verifiable evidence, yet its capabilities remain underexplored. We introduce a benchmark AJ-Bench to systematically evaluate Agent-as-a-Judge across three domains-search, data systems, and graphical user interfaces-comprising 155 tasks and 516 annotated trajectories. The benchmark comprehensively assesses judge agents' abilities in information acquisition, state verification, and process verification. Experiments demonstrate consistent performance gains over LLM-as-a-Judge baselines, while also revealing substantial open challenges in agent-based verification. Our data and code are available at https://aj-bench.github.io/.

AJ-Bench: Benchmarking van Agent-als-Rechter voor Omgevingsbewuste Evaluatie

AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

Samenvatting

Support