ChatPaper.aiChatPaper

AutoLibra: 개방형 피드백을 통한 에이전트 메트릭 유도

AutoLibra: Agent Metric Induction from Open-Ended Feedback

May 5, 2025
저자: Hao Zhu, Phil Cuvin, Xinkai Yu, Charlotte Ka Yee Yan, Jason Zhang, Diyi Yang
cs.AI

초록

에이전트는 주로 작업 성공 지표를 통해 평가 및 최적화되며, 이러한 지표는 대체로 거칠고 전문가의 수동 설계에 의존하며 중간에 발생하는 새로운 행동을 보상하지 못합니다. 우리는 AutoLibra라는 에이전트 평가 프레임워크를 제안합니다. 이 프레임워크는 "버튼이 비활성화된 것을 발견했다면 다시 클릭하지 마세요" 또는 "이 에이전트는 스스로 무엇을 할지 결정할 수 있는 자율성이 너무 많다"와 같은 개방형 인간 피드백을 에이전트 궤적에서 세부 행동을 평가하기 위한 지표로 변환합니다. AutoLibra는 피드백을 에이전트의 행동에 기반하여 구체화하고, 유사한 긍정적 및 부정적 행동을 클러스터링하며, 명확한 정의와 구체적인 예시를 포함한 구체적인 지표를 생성함으로써 이를 달성합니다. 이러한 지표는 LLM-as-a-Judge(판단자로서의 대형 언어 모델)를 평가자로 사용하기 위한 프롬프트로 활용될 수 있습니다. 또한 우리는 개방형 피드백과 (유도된) 지표 집합 간의 정렬을 평가하기 위해 "커버리지"와 "중복성"이라는 두 가지 메타 지표를 제안합니다. 이러한 메타 지표를 최적화함으로써, 우리는 AutoLibra가 이전의 에이전트 평가 벤치마크에서 제안된 것보다 더 구체적인 에이전트 평가 지표를 유도하고 에이전트를 분석하기 위한 새로운 지표를 발견할 수 있음을 실험적으로 입증합니다. 또한 우리는 AutoLibra의 두 가지 응용 사례를 제시합니다: 첫째, AutoLibra가 유도한 지표가 다양한 텍스트 게임 작업에서 작업 성공률보다 더 나은 프롬프트 엔지니어링 목표로 작용하여, 에이전트 성능을 기준선 대비 평균 20% 향상시킨다는 것을 보여줍니다. 둘째, AutoLibra가 웹 탐색 에이전트를 위한 고품질 미세 조정 데이터를 반복적으로 선택할 수 있음을 보여줍니다. 우리의 결과는 AutoLibra가 언어 에이전트를 평가하고 개선하기 위한 강력한 작업 독립적 도구임을 시사합니다.
English
Agents are predominantly evaluated and optimized via task success metrics, which are coarse, rely on manual design from experts, and fail to reward intermediate emergent behaviors. We propose AutoLibra, a framework for agent evaluation, that transforms open-ended human feedback, e.g., "If you find that the button is disabled, don't click it again", or "This agent has too much autonomy to decide what to do on its own", into metrics for evaluating fine-grained behaviors in agent trajectories. AutoLibra accomplishes this by grounding feedback to an agent's behavior, clustering similar positive and negative behaviors, and creating concrete metrics with clear definitions and concrete examples, which can be used for prompting LLM-as-a-Judge as evaluators. We further propose two meta-metrics to evaluate the alignment of a set of (induced) metrics with open feedback: "coverage" and "redundancy". Through optimizing these meta-metrics, we experimentally demonstrate AutoLibra's ability to induce more concrete agent evaluation metrics than the ones proposed in previous agent evaluation benchmarks and discover new metrics to analyze agents. We also present two applications of AutoLibra in agent improvement: First, we show that AutoLibra-induced metrics serve as better prompt-engineering targets than the task success rate on a wide range of text game tasks, improving agent performance over baseline by a mean of 20%. Second, we show that AutoLibra can iteratively select high-quality fine-tuning data for web navigation agents. Our results suggest that AutoLibra is a powerful task-agnostic tool for evaluating and improving language agents.

Summary

AI-Generated Summary

PDF22May 8, 2025