Agent-als-Richter: Bewerten von Agenten mit Agenten
Agent-as-a-Judge: Evaluate Agents with Agents
October 14, 2024
Autoren: Mingchen Zhuge, Changsheng Zhao, Dylan Ashley, Wenyi Wang, Dmitrii Khizbullin, Yunyang Xiong, Zechun Liu, Ernie Chang, Raghuraman Krishnamoorthi, Yuandong Tian, Yangyang Shi, Vikas Chandra, Jürgen Schmidhuber
cs.AI
Zusammenfassung
Moderne Bewertungstechniken sind unzureichend für agentische Systeme. Diese Ansätze konzentrieren sich entweder ausschließlich auf endgültige Ergebnisse - und ignorieren die schrittweise Natur agentischer Systeme - oder erfordern übermäßige manuelle Arbeit. Um dies zu lösen, führen wir das Agent-als-Richter-Framework ein, bei dem agentische Systeme zur Bewertung anderer agentischer Systeme verwendet werden. Dies ist eine organische Erweiterung des LLM-als-Richter-Frameworks, das agentische Merkmale integriert, die ein Zwischenfeedback für den gesamten Aufgabenlösungsprozess ermöglichen. Wir wenden das Agent-als-Richter-Framework auf die Aufgabe der Codegenerierung an. Um Probleme mit bestehenden Benchmarks zu überwinden und ein Proof-of-Concept-Testfeld für Agent-als-Richter bereitzustellen, präsentieren wir DevAI, einen neuen Benchmark mit 55 realistischen automatisierten KI-Entwicklungsaufgaben. Er umfasst umfangreiche manuelle Annotationen, wie insgesamt 365 hierarchische Benutzeranforderungen. Wir bewerten drei der beliebten agentischen Systeme mit Agent-als-Richter und stellen fest, dass es LLM-als-Richter deutlich übertrifft und genauso zuverlässig ist wie unsere menschliche Bewertungsbasislinie. Insgesamt sind wir der Meinung, dass Agent-als-Richter einen konkreten Schritt nach vorne für moderne agentische Systeme darstellt - indem es reiche und zuverlässige Belohnungssignale bereitstellt, die für eine dynamische und skalierbare Selbstverbesserung erforderlich sind.
English
Contemporary evaluation techniques are inadequate for agentic systems. These
approaches either focus exclusively on final outcomes -- ignoring the
step-by-step nature of agentic systems, or require excessive manual labour. To
address this, we introduce the Agent-as-a-Judge framework, wherein agentic
systems are used to evaluate agentic systems. This is an organic extension of
the LLM-as-a-Judge framework, incorporating agentic features that enable
intermediate feedback for the entire task-solving process. We apply the
Agent-as-a-Judge to the task of code generation. To overcome issues with
existing benchmarks and provide a proof-of-concept testbed for
Agent-as-a-Judge, we present DevAI, a new benchmark of 55 realistic automated
AI development tasks. It includes rich manual annotations, like a total of 365
hierarchical user requirements. We benchmark three of the popular agentic
systems using Agent-as-a-Judge and find it dramatically outperforms
LLM-as-a-Judge and is as reliable as our human evaluation baseline. Altogether,
we believe that Agent-as-a-Judge marks a concrete step forward for modern
agentic systems -- by providing rich and reliable reward signals necessary for
dynamic and scalable self-improvement.Summary
AI-Generated Summary