Агент-в-качестве-судьи: Оценка агентов с помощью агентов
Agent-as-a-Judge: Evaluate Agents with Agents
October 14, 2024
Авторы: Mingchen Zhuge, Changsheng Zhao, Dylan Ashley, Wenyi Wang, Dmitrii Khizbullin, Yunyang Xiong, Zechun Liu, Ernie Chang, Raghuraman Krishnamoorthi, Yuandong Tian, Yangyang Shi, Vikas Chandra, Jürgen Schmidhuber
cs.AI
Аннотация
Современные методы оценки недостаточно эффективны для агентных систем. Эти подходы либо сосредотачиваются исключительно на конечных результатах, игнорируя пошаговую природу агентных систем, либо требуют излишнего ручного труда. Для решения этой проблемы мы представляем концепцию Агент-судья, в рамках которой агентные системы используются для оценки других агентных систем. Это органическое расширение концепции LLM-судья, включающее агентные особенности, обеспечивающие промежуточную обратную связь для всего процесса решения задачи. Мы применяем концепцию Агент-судья к задаче генерации кода. Чтобы преодолеть проблемы существующих бенчмарков и предоставить тестовую площадку для концепции Агент-судья, мы представляем DevAI, новый бенчмарк из 55 реалистичных автоматизированных задач по разработке искусственного интеллекта. Он включает обширные ручные аннотации, такие как общее количество 365 иерархических пользовательских требований. Мы проводим сравнительный анализ трех популярных агентных систем с использованием концепции Агент-судья и обнаруживаем, что она значительно превосходит концепцию LLM-судья и также надежна, как наша базовая оценка человеком. В целом, мы считаем, что концепция Агент-судья представляет собой конкретный шаг вперед для современных агентных систем, предоставляя богатые и надежные сигналы вознаграждения, необходимые для динамичного и масштабируемого самосовершенствования.
English
Contemporary evaluation techniques are inadequate for agentic systems. These
approaches either focus exclusively on final outcomes -- ignoring the
step-by-step nature of agentic systems, or require excessive manual labour. To
address this, we introduce the Agent-as-a-Judge framework, wherein agentic
systems are used to evaluate agentic systems. This is an organic extension of
the LLM-as-a-Judge framework, incorporating agentic features that enable
intermediate feedback for the entire task-solving process. We apply the
Agent-as-a-Judge to the task of code generation. To overcome issues with
existing benchmarks and provide a proof-of-concept testbed for
Agent-as-a-Judge, we present DevAI, a new benchmark of 55 realistic automated
AI development tasks. It includes rich manual annotations, like a total of 365
hierarchical user requirements. We benchmark three of the popular agentic
systems using Agent-as-a-Judge and find it dramatically outperforms
LLM-as-a-Judge and is as reliable as our human evaluation baseline. Altogether,
we believe that Agent-as-a-Judge marks a concrete step forward for modern
agentic systems -- by providing rich and reliable reward signals necessary for
dynamic and scalable self-improvement.Summary
AI-Generated Summary