Agent-comme-Juge : Évaluer les Agents avec des Agents
Agent-as-a-Judge: Evaluate Agents with Agents
October 14, 2024
Auteurs: Mingchen Zhuge, Changsheng Zhao, Dylan Ashley, Wenyi Wang, Dmitrii Khizbullin, Yunyang Xiong, Zechun Liu, Ernie Chang, Raghuraman Krishnamoorthi, Yuandong Tian, Yangyang Shi, Vikas Chandra, Jürgen Schmidhuber
cs.AI
Résumé
Les techniques d'évaluation contemporaines sont inadéquates pour les systèmes agentic. Ces approches se concentrent soit exclusivement sur les résultats finaux en ignorant la nature étape par étape des systèmes agentic, soit nécessitent un travail manuel excessif. Pour remédier à cela, nous introduisons le cadre Agent-comme-Juge, dans lequel les systèmes agentic sont utilisés pour évaluer d'autres systèmes agentic. Il s'agit d'une extension organique du cadre LLM-comme-Juge, intégrant des fonctionnalités agentic permettant des retours intermédiaires pour l'ensemble du processus de résolution de tâches. Nous appliquons le cadre Agent-comme-Juge à la tâche de génération de code. Pour surmonter les problèmes liés aux benchmarks existants et fournir une plateforme de test de preuve de concept pour l'Agent-comme-Juge, nous présentons DevAI, un nouveau benchmark de 55 tâches de développement d'IA automatisées réalistes. Il comprend des annotations manuelles détaillées, telles qu'un total de 365 exigences utilisateur hiérarchiques. Nous évaluons trois des systèmes agentic populaires en utilisant l'Agent-comme-Juge et constatons qu'il surpasse nettement le LLM-comme-Juge et est aussi fiable que notre référence d'évaluation humaine. Dans l'ensemble, nous pensons que l'Agent-comme-Juge marque une avancée concrète pour les systèmes agentic modernes en fournissant des signaux de récompense riches et fiables nécessaires pour l'auto-amélioration dynamique et évolutive.
English
Contemporary evaluation techniques are inadequate for agentic systems. These
approaches either focus exclusively on final outcomes -- ignoring the
step-by-step nature of agentic systems, or require excessive manual labour. To
address this, we introduce the Agent-as-a-Judge framework, wherein agentic
systems are used to evaluate agentic systems. This is an organic extension of
the LLM-as-a-Judge framework, incorporating agentic features that enable
intermediate feedback for the entire task-solving process. We apply the
Agent-as-a-Judge to the task of code generation. To overcome issues with
existing benchmarks and provide a proof-of-concept testbed for
Agent-as-a-Judge, we present DevAI, a new benchmark of 55 realistic automated
AI development tasks. It includes rich manual annotations, like a total of 365
hierarchical user requirements. We benchmark three of the popular agentic
systems using Agent-as-a-Judge and find it dramatically outperforms
LLM-as-a-Judge and is as reliable as our human evaluation baseline. Altogether,
we believe that Agent-as-a-Judge marks a concrete step forward for modern
agentic systems -- by providing rich and reliable reward signals necessary for
dynamic and scalable self-improvement.Summary
AI-Generated Summary