ChatPaper.aiChatPaper

Агент-в-качестве-судьи: Оценка агентов с помощью агентов

Agent-as-a-Judge: Evaluate Agents with Agents

October 14, 2024
Авторы: Mingchen Zhuge, Changsheng Zhao, Dylan Ashley, Wenyi Wang, Dmitrii Khizbullin, Yunyang Xiong, Zechun Liu, Ernie Chang, Raghuraman Krishnamoorthi, Yuandong Tian, Yangyang Shi, Vikas Chandra, Jürgen Schmidhuber
cs.AI

Аннотация

Современные методы оценки недостаточно эффективны для агентных систем. Эти подходы либо сосредотачиваются исключительно на конечных результатах, игнорируя пошаговую природу агентных систем, либо требуют излишнего ручного труда. Для решения этой проблемы мы представляем концепцию Агент-судья, в рамках которой агентные системы используются для оценки других агентных систем. Это органическое расширение концепции LLM-судья, включающее агентные особенности, обеспечивающие промежуточную обратную связь для всего процесса решения задачи. Мы применяем концепцию Агент-судья к задаче генерации кода. Чтобы преодолеть проблемы существующих бенчмарков и предоставить тестовую площадку для концепции Агент-судья, мы представляем DevAI, новый бенчмарк из 55 реалистичных автоматизированных задач по разработке искусственного интеллекта. Он включает обширные ручные аннотации, такие как общее количество 365 иерархических пользовательских требований. Мы проводим сравнительный анализ трех популярных агентных систем с использованием концепции Агент-судья и обнаруживаем, что она значительно превосходит концепцию LLM-судья и также надежна, как наша базовая оценка человеком. В целом, мы считаем, что концепция Агент-судья представляет собой конкретный шаг вперед для современных агентных систем, предоставляя богатые и надежные сигналы вознаграждения, необходимые для динамичного и масштабируемого самосовершенствования.
English
Contemporary evaluation techniques are inadequate for agentic systems. These approaches either focus exclusively on final outcomes -- ignoring the step-by-step nature of agentic systems, or require excessive manual labour. To address this, we introduce the Agent-as-a-Judge framework, wherein agentic systems are used to evaluate agentic systems. This is an organic extension of the LLM-as-a-Judge framework, incorporating agentic features that enable intermediate feedback for the entire task-solving process. We apply the Agent-as-a-Judge to the task of code generation. To overcome issues with existing benchmarks and provide a proof-of-concept testbed for Agent-as-a-Judge, we present DevAI, a new benchmark of 55 realistic automated AI development tasks. It includes rich manual annotations, like a total of 365 hierarchical user requirements. We benchmark three of the popular agentic systems using Agent-as-a-Judge and find it dramatically outperforms LLM-as-a-Judge and is as reliable as our human evaluation baseline. Altogether, we believe that Agent-as-a-Judge marks a concrete step forward for modern agentic systems -- by providing rich and reliable reward signals necessary for dynamic and scalable self-improvement.

Summary

AI-Generated Summary

PDF222November 16, 2024