Agente-como-Juez: Evaluar Agentes con Agentes
Agent-as-a-Judge: Evaluate Agents with Agents
October 14, 2024
Autores: Mingchen Zhuge, Changsheng Zhao, Dylan Ashley, Wenyi Wang, Dmitrii Khizbullin, Yunyang Xiong, Zechun Liu, Ernie Chang, Raghuraman Krishnamoorthi, Yuandong Tian, Yangyang Shi, Vikas Chandra, Jürgen Schmidhuber
cs.AI
Resumen
Las técnicas de evaluación contemporáneas resultan inadecuadas para los sistemas agentes. Estos enfoques se centran exclusivamente en los resultados finales, ignorando la naturaleza paso a paso de los sistemas agentes, o requieren un excesivo trabajo manual. Para abordar esto, presentamos el marco de Agente-como-Juez, en el cual los sistemas agentes se utilizan para evaluar otros sistemas agentes. Esta es una extensión orgánica del marco de LLM-como-Juez, incorporando características agentes que permiten retroalimentación intermedia para todo el proceso de resolución de tareas. Aplicamos el enfoque Agente-como-Juez a la tarea de generación de código. Para superar problemas con los benchmarks existentes y proporcionar un banco de pruebas de concepto para Agente-como-Juez, presentamos DevAI, un nuevo benchmark de 55 tareas realistas de desarrollo automatizado de IA. Incluye anotaciones manuales detalladas, como un total de 365 requisitos de usuario jerárquicos. Evaluamos tres de los sistemas agentes populares utilizando Agente-como-Juez y encontramos que supera drásticamente a LLM-como-Juez y es tan confiable como nuestra evaluación humana de referencia. En conjunto, creemos que Agente-como-Juez representa un avance concreto para los sistemas agentes modernos, al proporcionar señales de recompensa ricas y confiables necesarias para la mejora dinámica y escalable.
English
Contemporary evaluation techniques are inadequate for agentic systems. These
approaches either focus exclusively on final outcomes -- ignoring the
step-by-step nature of agentic systems, or require excessive manual labour. To
address this, we introduce the Agent-as-a-Judge framework, wherein agentic
systems are used to evaluate agentic systems. This is an organic extension of
the LLM-as-a-Judge framework, incorporating agentic features that enable
intermediate feedback for the entire task-solving process. We apply the
Agent-as-a-Judge to the task of code generation. To overcome issues with
existing benchmarks and provide a proof-of-concept testbed for
Agent-as-a-Judge, we present DevAI, a new benchmark of 55 realistic automated
AI development tasks. It includes rich manual annotations, like a total of 365
hierarchical user requirements. We benchmark three of the popular agentic
systems using Agent-as-a-Judge and find it dramatically outperforms
LLM-as-a-Judge and is as reliable as our human evaluation baseline. Altogether,
we believe that Agent-as-a-Judge marks a concrete step forward for modern
agentic systems -- by providing rich and reliable reward signals necessary for
dynamic and scalable self-improvement.Summary
AI-Generated Summary