ChatPaper.aiChatPaper

エージェントのワークフローメモリ

Agent Workflow Memory

September 11, 2024
著者: Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig
cs.AI

要旨

言語モデルベースのエージェントがWebナビゲーションなどの実世界の課題を解決する潜在能力にもかかわらず、現在の手法は依然として複雑なアクション経路を持つ長期的な課題に苦労しています。一方、人間は過去の経験から再利用可能なタスクワークフローを学習し、それを活用して将来の行動をガイドすることで柔軟に複雑なタスクを解決できます。このプロセスから同様に利益を得るエージェントを構築するために、我々はエージェントワークフローメモリ(AWM)を導入します。これは、一般的に再利用されるルーチン、つまりワークフローを誘導し、エージェントに選択的に提供して後続の世代をガイドします。AWMは、事前にトレーニング例からワークフローを誘導するオフラインおよびオンラインシナリオの両方に柔軟に適用されます。我々は、旅行、ショッピング、ソーシャルメディアなどの領域を含む200以上のドメインから1000以上のタスクをカバーする2つの主要なWebナビゲーションベンチマーク、Mind2WebとWebArenaで実験を行いました。AWMは、WebArenaのタスクを成功裏に解決するために必要なステップ数を削減しつつ、Mind2WebとWebArenaでベースライン結果をそれぞれ24.6%と51.1%改善します。さらに、オンラインAWMは、トレーニングとテストのタスク分布のギャップが拡大するにつれて、クロスタスク、ウェブサイト、およびドメインの評価で8.9から14.0の絶対ポイントを超えるベースラインを堅牢に汎化します。
English
Despite the potential of language model-based agents to solve real-world tasks such as web navigation, current methods still struggle with long-horizon tasks with complex action trajectories. In contrast, humans can flexibly solve complex tasks by learning reusable task workflows from past experiences and using them to guide future actions. To build agents that can similarly benefit from this process, we introduce Agent Workflow Memory (AWM), a method for inducing commonly reused routines, i.e., workflows, and selectively providing workflows to the agent to guide subsequent generations. AWM flexibly applies to both offline and online scenarios, where agents induce workflows from training examples beforehand or from test queries on the fly. We experiment on two major web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover 1000+ tasks from 200+ domains across travel, shopping, and social media, among others. AWM substantially improves the baseline results by 24.6% and 51.1% relative success rate on Mind2Web and WebArena while reducing the number of steps taken to solve WebArena tasks successfully. Furthermore, online AWM robustly generalizes in cross-task, website, and domain evaluations, surpassing baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps widen.

Summary

AI-Generated Summary

PDF322November 16, 2024