Memoria del Flujo de Trabajo del Agente
Agent Workflow Memory
September 11, 2024
Autores: Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig
cs.AI
Resumen
A pesar del potencial de los agentes basados en modelos de lenguaje para resolver tareas del mundo real como la navegación web, los métodos actuales aún tienen dificultades con tareas a largo plazo que implican trayectorias de acciones complejas. En contraste, los humanos pueden resolver de manera flexible tareas complejas aprendiendo flujos de trabajo reutilizables a partir de experiencias pasadas y utilizando estos para guiar acciones futuras. Para construir agentes que puedan beneficiarse de este proceso de manera similar, presentamos la Memoria de Flujo de Trabajo del Agente (AWM), un método para inducir rutinas comúnmente reutilizadas, es decir, flujos de trabajo, y proporcionar selectivamente flujos de trabajo al agente para guiar generaciones posteriores. AWM se aplica de manera flexible tanto en escenarios offline como online, donde los agentes inducen flujos de trabajo a partir de ejemplos de entrenamiento de antemano o de consultas de prueba sobre la marcha. Experimentamos en dos importantes referencias de navegación web: Mind2Web y WebArena, que cubren colectivamente 1000+ tareas de 200+ dominios que incluyen viajes, compras y redes sociales, entre otros. AWM mejora sustancialmente los resultados base en un 24.6% y un 51.1% en la tasa de éxito relativa en Mind2Web y WebArena, al tiempo que reduce el número de pasos necesarios para resolver con éxito las tareas de WebArena. Además, AWM online generaliza de manera robusta en evaluaciones cruzadas de tareas, sitios web y dominios, superando a los resultados base de 8.9 a 14.0 puntos absolutos a medida que aumentan las brechas de distribución de tareas de entrenamiento y prueba.
English
Despite the potential of language model-based agents to solve real-world
tasks such as web navigation, current methods still struggle with long-horizon
tasks with complex action trajectories. In contrast, humans can flexibly solve
complex tasks by learning reusable task workflows from past experiences and
using them to guide future actions. To build agents that can similarly benefit
from this process, we introduce Agent Workflow Memory (AWM), a method for
inducing commonly reused routines, i.e., workflows, and selectively providing
workflows to the agent to guide subsequent generations. AWM flexibly applies to
both offline and online scenarios, where agents induce workflows from training
examples beforehand or from test queries on the fly. We experiment on two major
web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover
1000+ tasks from 200+ domains across travel, shopping, and social media, among
others. AWM substantially improves the baseline results by 24.6% and 51.1%
relative success rate on Mind2Web and WebArena while reducing the number of
steps taken to solve WebArena tasks successfully. Furthermore, online AWM
robustly generalizes in cross-task, website, and domain evaluations, surpassing
baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps
widen.Summary
AI-Generated Summary