AJ-Bench: Evaluación Comparativa del Agente-como-Juez para la Evaluación Consciente del Entorno

Resumen

A medida que el aprendizaje por refuerzo sigue escalando el entrenamiento de agentes basados en modelos de lenguaje grandes, la verificación confiable de comportamientos de agentes en entornos complejos se ha vuelto cada vez más desafiante. Los enfoques existentes dependen de verificadores basados en reglas o modelos LLM-como-Juez, que luchan por generalizarse más allá de dominios específicos. Agente-como-Juez aborda esta limitación interactuando activamente con entornos y herramientas para adquirir evidencia verificable, aunque sus capacidades aún están poco exploradas. Presentamos un benchmark, AJ-Bench, para evaluar sistemáticamente Agente-como-Juez en tres dominios - búsqueda, sistemas de datos e interfaces gráficas de usuario - que comprende 155 tareas y 516 trayectorias anotadas. El benchmark evalúa exhaustivamente las capacidades de los agentes jueces en adquisición de información, verificación de estado y verificación de procesos. Los experimentos demuestran mejoras consistentes en el rendimiento respecto a los baselines de LLM-como-Juez, mientras también revelan desafíos abiertos sustanciales en la verificación basada en agentes. Nuestros datos y código están disponibles en https://aj-bench.github.io/.

English

As reinforcement learning continues to scale the training of large language model-based agents, reliably verifying agent behaviors in complex environments has become increasingly challenging. Existing approaches rely on rule-based verifiers or LLM-as-a-Judge models, which struggle to generalize beyond narrow domains. Agent-as-a-Judge addresses this limitation by actively interacting with environments and tools to acquire verifiable evidence, yet its capabilities remain underexplored. We introduce a benchmark AJ-Bench to systematically evaluate Agent-as-a-Judge across three domains-search, data systems, and graphical user interfaces-comprising 155 tasks and 516 annotated trajectories. The benchmark comprehensively assesses judge agents' abilities in information acquisition, state verification, and process verification. Experiments demonstrate consistent performance gains over LLM-as-a-Judge baselines, while also revealing substantial open challenges in agent-based verification. Our data and code are available at https://aj-bench.github.io/.

AJ-Bench: Evaluación Comparativa del Agente-como-Juez para la Evaluación Consciente del Entorno

AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

Resumen

Support