AJ-Bench : Évaluation comparative de l'agent-en-tant-que-juge pour l'évaluation contextuelle

Résumé

Alors que l'apprentissage par renforcement continue d'intensifier l'entraînement des agents basés sur de grands modèles de langage, la vérification fiable des comportements des agents dans des environnements complexes est devenue de plus en plus difficile. Les approches existantes reposent sur des vérificateurs à base de règles ou des modèles de type LLM-comme-juge, qui peinent à généraliser au-delà de domaines restreints. L'approche Agent-comme-juge résout cette limitation en interagissant activement avec les environnements et les outils pour acquérir des preuves vérifiables, mais ses capacités restent sous-explorées. Nous présentons un benchmark AJ-Bench pour évaluer systématiquement l'approche Agent-comme-juge dans trois domaines - la recherche, les systèmes de données et les interfaces utilisateur graphiques - comprenant 155 tâches et 516 trajectoires annotées. Le benchmark évalue de manière exhaustive les capacités des agents juges en matière d'acquisition d'informations, de vérification d'état et de vérification de processus. Les expériences démontrent des gains de performance constants par rapport aux modèles de référence LLM-comme-juge, tout en révélant des défis ouverts substantiels dans la vérification par agents. Nos données et notre code sont disponibles à l'adresse https://aj-bench.github.io/.

English

As reinforcement learning continues to scale the training of large language model-based agents, reliably verifying agent behaviors in complex environments has become increasingly challenging. Existing approaches rely on rule-based verifiers or LLM-as-a-Judge models, which struggle to generalize beyond narrow domains. Agent-as-a-Judge addresses this limitation by actively interacting with environments and tools to acquire verifiable evidence, yet its capabilities remain underexplored. We introduce a benchmark AJ-Bench to systematically evaluate Agent-as-a-Judge across three domains-search, data systems, and graphical user interfaces-comprising 155 tasks and 516 annotated trajectories. The benchmark comprehensively assesses judge agents' abilities in information acquisition, state verification, and process verification. Experiments demonstrate consistent performance gains over LLM-as-a-Judge baselines, while also revealing substantial open challenges in agent-based verification. Our data and code are available at https://aj-bench.github.io/.

AJ-Bench : Évaluation comparative de l'agent-en-tant-que-juge pour l'évaluation contextuelle

AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

Résumé

Support