Agente como Juiz: Avaliar Agentes com Agentes
Agent-as-a-Judge: Evaluate Agents with Agents
October 14, 2024
Autores: Mingchen Zhuge, Changsheng Zhao, Dylan Ashley, Wenyi Wang, Dmitrii Khizbullin, Yunyang Xiong, Zechun Liu, Ernie Chang, Raghuraman Krishnamoorthi, Yuandong Tian, Yangyang Shi, Vikas Chandra, Jürgen Schmidhuber
cs.AI
Resumo
As técnicas de avaliação contemporâneas são inadequadas para sistemas agentes. Essas abordagens se concentram exclusivamente nos resultados finais - ignorando a natureza passo a passo dos sistemas agentes, ou exigem um trabalho manual excessivo. Para lidar com isso, introduzimos o framework Agente-como-Juiz, no qual sistemas agentes são utilizados para avaliar sistemas agentes. Isso é uma extensão orgânica do framework LLM-como-Juiz, incorporando características agentes que possibilitam feedback intermediário para todo o processo de resolução de tarefas. Aplicamos o Agente-como-Juiz à tarefa de geração de código. Para superar problemas com benchmarks existentes e fornecer uma plataforma de testes de prova de conceito para o Agente-como-Juiz, apresentamos o DevAI, um novo benchmark com 55 tarefas realistas de desenvolvimento de IA automatizado. Ele inclui ricas anotações manuais, como um total de 365 requisitos de usuário hierárquicos. Avaliamos três dos sistemas agentes populares usando o Agente-como-Juiz e descobrimos que ele supera significativamente o LLM-como-Juiz e é tão confiável quanto nossa linha de base de avaliação humana. No geral, acreditamos que o Agente-como-Juiz representa um avanço concreto para os sistemas agentes modernos - fornecendo sinais de recompensa ricos e confiáveis necessários para a auto melhoria dinâmica e escalável.
English
Contemporary evaluation techniques are inadequate for agentic systems. These
approaches either focus exclusively on final outcomes -- ignoring the
step-by-step nature of agentic systems, or require excessive manual labour. To
address this, we introduce the Agent-as-a-Judge framework, wherein agentic
systems are used to evaluate agentic systems. This is an organic extension of
the LLM-as-a-Judge framework, incorporating agentic features that enable
intermediate feedback for the entire task-solving process. We apply the
Agent-as-a-Judge to the task of code generation. To overcome issues with
existing benchmarks and provide a proof-of-concept testbed for
Agent-as-a-Judge, we present DevAI, a new benchmark of 55 realistic automated
AI development tasks. It includes rich manual annotations, like a total of 365
hierarchical user requirements. We benchmark three of the popular agentic
systems using Agent-as-a-Judge and find it dramatically outperforms
LLM-as-a-Judge and is as reliable as our human evaluation baseline. Altogether,
we believe that Agent-as-a-Judge marks a concrete step forward for modern
agentic systems -- by providing rich and reliable reward signals necessary for
dynamic and scalable self-improvement.Summary
AI-Generated Summary