Mémoire de flux de travail de l'agent
Agent Workflow Memory
September 11, 2024
Auteurs: Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig
cs.AI
Résumé
Malgré le potentiel des agents basés sur des modèles linguistiques pour résoudre des tâches du monde réel telles que la navigation web, les méthodes actuelles peinent toujours avec les tâches à long horizon présentant des trajectoires d'actions complexes. En revanche, les humains peuvent résoudre de manière flexible des tâches complexes en apprenant des flux de tâches réutilisables à partir d'expériences passées et en les utilisant pour guider les actions futures. Pour construire des agents pouvant bénéficier de ce processus de manière similaire, nous introduisons Agent Workflow Memory (AWM), une méthode pour induire des routines couramment réutilisées, c'est-à-dire des flux de tâches, et fournir sélectivement ces flux de tâches à l'agent pour guider les générations suivantes. AWM s'applique de manière flexible aux scénarios hors ligne et en ligne, où les agents induisent des flux de tâches à partir d'exemples d'entraînement à l'avance ou à partir de requêtes de test en temps réel. Nous expérimentons sur deux benchmarks majeurs de navigation web -- Mind2Web et WebArena -- couvrant collectivement plus de 1000 tâches provenant de plus de 200 domaines incluant les voyages, les achats et les médias sociaux, entre autres. AWM améliore considérablement les résultats de base de 24,6 % et 51,1 % en taux de réussite relative sur Mind2Web et WebArena tout en réduisant le nombre d'étapes nécessaires pour résoudre avec succès les tâches de WebArena. De plus, AWM en ligne généralise de manière robuste dans des évaluations croisées de tâches, de sites web et de domaines, dépassant les résultats de base de 8,9 à 14,0 points absolus à mesure que les écarts de distribution des tâches d'entraînement et de test s'agrandissent.
English
Despite the potential of language model-based agents to solve real-world
tasks such as web navigation, current methods still struggle with long-horizon
tasks with complex action trajectories. In contrast, humans can flexibly solve
complex tasks by learning reusable task workflows from past experiences and
using them to guide future actions. To build agents that can similarly benefit
from this process, we introduce Agent Workflow Memory (AWM), a method for
inducing commonly reused routines, i.e., workflows, and selectively providing
workflows to the agent to guide subsequent generations. AWM flexibly applies to
both offline and online scenarios, where agents induce workflows from training
examples beforehand or from test queries on the fly. We experiment on two major
web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover
1000+ tasks from 200+ domains across travel, shopping, and social media, among
others. AWM substantially improves the baseline results by 24.6% and 51.1%
relative success rate on Mind2Web and WebArena while reducing the number of
steps taken to solve WebArena tasks successfully. Furthermore, online AWM
robustly generalizes in cross-task, website, and domain evaluations, surpassing
baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps
widen.