Agent-als-Richter: Bewerten von Agenten mit Agenten

papers.abstract

Moderne Bewertungstechniken sind unzureichend für agentische Systeme. Diese Ansätze konzentrieren sich entweder ausschließlich auf endgültige Ergebnisse - und ignorieren die schrittweise Natur agentischer Systeme - oder erfordern übermäßige manuelle Arbeit. Um dies zu lösen, führen wir das Agent-als-Richter-Framework ein, bei dem agentische Systeme zur Bewertung anderer agentischer Systeme verwendet werden. Dies ist eine organische Erweiterung des LLM-als-Richter-Frameworks, das agentische Merkmale integriert, die ein Zwischenfeedback für den gesamten Aufgabenlösungsprozess ermöglichen. Wir wenden das Agent-als-Richter-Framework auf die Aufgabe der Codegenerierung an. Um Probleme mit bestehenden Benchmarks zu überwinden und ein Proof-of-Concept-Testfeld für Agent-als-Richter bereitzustellen, präsentieren wir DevAI, einen neuen Benchmark mit 55 realistischen automatisierten KI-Entwicklungsaufgaben. Er umfasst umfangreiche manuelle Annotationen, wie insgesamt 365 hierarchische Benutzeranforderungen. Wir bewerten drei der beliebten agentischen Systeme mit Agent-als-Richter und stellen fest, dass es LLM-als-Richter deutlich übertrifft und genauso zuverlässig ist wie unsere menschliche Bewertungsbasislinie. Insgesamt sind wir der Meinung, dass Agent-als-Richter einen konkreten Schritt nach vorne für moderne agentische Systeme darstellt - indem es reiche und zuverlässige Belohnungssignale bereitstellt, die für eine dynamische und skalierbare Selbstverbesserung erforderlich sind.

English

Contemporary evaluation techniques are inadequate for agentic systems. These approaches either focus exclusively on final outcomes -- ignoring the step-by-step nature of agentic systems, or require excessive manual labour. To address this, we introduce the Agent-as-a-Judge framework, wherein agentic systems are used to evaluate agentic systems. This is an organic extension of the LLM-as-a-Judge framework, incorporating agentic features that enable intermediate feedback for the entire task-solving process. We apply the Agent-as-a-Judge to the task of code generation. To overcome issues with existing benchmarks and provide a proof-of-concept testbed for Agent-as-a-Judge, we present DevAI, a new benchmark of 55 realistic automated AI development tasks. It includes rich manual annotations, like a total of 365 hierarchical user requirements. We benchmark three of the popular agentic systems using Agent-as-a-Judge and find it dramatically outperforms LLM-as-a-Judge and is as reliable as our human evaluation baseline. Altogether, we believe that Agent-as-a-Judge marks a concrete step forward for modern agentic systems -- by providing rich and reliable reward signals necessary for dynamic and scalable self-improvement.

Agent-als-Richter: Bewerten von Agenten mit Agenten

Agent-as-a-Judge: Evaluate Agents with Agents

papers.abstract

Support