ChatPaper.aiChatPaper

에이전트 워크플로우 메모리

Agent Workflow Memory

September 11, 2024
저자: Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig
cs.AI

초록

언어 모델 기반 에이전트의 잠재력에도 불구하고 웹 탐색과 같은 실제 과제를 해결하는 데 현재 방법들은 여전히 복잡한 행동 궤적을 가진 장기 과제에 어려움을 겪고 있습니다. 반면에 인간은 과거 경험으로부터 재사용 가능한 작업 워크플로우를 학습하고 미래 행동을 안내하는 데 사용함으로써 유연하게 복잡한 과제를 해결할 수 있습니다. 이러한 과정에서 유사한 혜택을 누릴 수 있는 에이전트를 구축하기 위해 우리는 에이전트 워크플로우 메모리(AWM)를 소개합니다. AWM은 자주 재사용되는 루틴, 즉 워크플로우를 유도하고 에이전트에게 후속 세대를 안내하기 위해 워크플로우를 선택적으로 제공하는 방법입니다. AWM은 훈련 예제로부터 워크플로우를 미리 유도하거나 테스트 쿼리에서 실시간으로 워크플로우를 유도하는 오프라인 및 온라인 시나리오에 유연하게 적용됩니다. 우리는 여행, 쇼핑, 소셜 미디어 등 다양한 도메인을 포괄하는 200개 이상의 도메인에서 1000개 이상의 과제를 다루는 두 가지 주요 웹 탐색 벤치마크인 Mind2Web과 WebArena에서 실험을 진행했습니다. AWM은 WebArena 과제를 성공적으로 해결하기 위해 필요한 단계 수를 줄이면서 Mind2Web과 WebArena에서 기준 결과를 상대적으로 24.6% 및 51.1% 향상시킵니다. 더 나아가, 온라인 AWM은 훈련-테스트 과제 분포 간격이 넓어짐에 따라 교차 과제, 웹사이트 및 도메인 평가에서 8.9에서 14.0 절대 포인트의 베이스라인을 뛰어넘는 강건한 일반화 능력을 보입니다.
English
Despite the potential of language model-based agents to solve real-world tasks such as web navigation, current methods still struggle with long-horizon tasks with complex action trajectories. In contrast, humans can flexibly solve complex tasks by learning reusable task workflows from past experiences and using them to guide future actions. To build agents that can similarly benefit from this process, we introduce Agent Workflow Memory (AWM), a method for inducing commonly reused routines, i.e., workflows, and selectively providing workflows to the agent to guide subsequent generations. AWM flexibly applies to both offline and online scenarios, where agents induce workflows from training examples beforehand or from test queries on the fly. We experiment on two major web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover 1000+ tasks from 200+ domains across travel, shopping, and social media, among others. AWM substantially improves the baseline results by 24.6% and 51.1% relative success rate on Mind2Web and WebArena while reducing the number of steps taken to solve WebArena tasks successfully. Furthermore, online AWM robustly generalizes in cross-task, website, and domain evaluations, surpassing baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps widen.

Summary

AI-Generated Summary

PDF322November 16, 2024