¿Es tu LLM Secretamente un Modelo Mundial de Internet? Planificación Basada en Modelos para Agentes Web
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents
November 10, 2024
Autores: Yu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su
cs.AI
Resumen
Los agentes de lenguaje han demostrado capacidades prometedoras en la automatización de tareas basadas en la web, aunque sus enfoques reactivos actuales aún tienen un rendimiento inferior en gran medida en comparación con los humanos. Al incorporar algoritmos avanzados de planificación, en particular métodos de búsqueda en árboles, se podría mejorar el rendimiento de estos agentes, pero implementar la búsqueda en árboles directamente en sitios web en vivo plantea riesgos significativos de seguridad y limitaciones prácticas debido a acciones irreversibles como confirmar una compra. En este documento, presentamos un nuevo paradigma que potencia a los agentes de lenguaje con planificación basada en modelos, pionera en el uso innovador de grandes modelos de lenguaje (LLMs) como modelos del mundo en entornos web complejos. Nuestro método, WebDreamer, se basa en la idea clave de que los LLMs codifican inherentemente un conocimiento completo sobre las estructuras y funcionalidades de los sitios web. Específicamente, WebDreamer utiliza LLMs para simular resultados para cada acción candidata (por ejemplo, "¿qué sucedería si hago clic en este botón?") utilizando descripciones en lenguaje natural, y luego evalúa estos resultados imaginados para determinar la acción óptima en cada paso. Los resultados empíricos en dos benchmarks representativos de agentes web con interacción en línea -- VisualWebArena y Mind2Web-live -- demuestran que WebDreamer logra mejoras sustanciales sobre líneas de base reactivas. Al establecer la viabilidad de los LLMs como modelos del mundo en entornos web, este trabajo sienta las bases para un cambio de paradigma en la interacción web automatizada. Más ampliamente, nuestros hallazgos abren nuevas y emocionantes vías para futuras investigaciones en 1) optimizar los LLMs específicamente para modelado del mundo en entornos complejos y dinámicos, y 2) planificación especulativa basada en modelos para agentes de lenguaje.
English
Language agents have demonstrated promising capabilities in automating
web-based tasks, though their current reactive approaches still underperform
largely compared to humans. While incorporating advanced planning algorithms,
particularly tree search methods, could enhance these agents' performance,
implementing tree search directly on live websites poses significant safety
risks and practical constraints due to irreversible actions such as confirming
a purchase. In this paper, we introduce a novel paradigm that augments language
agents with model-based planning, pioneering the innovative use of large
language models (LLMs) as world models in complex web environments. Our method,
WebDreamer, builds on the key insight that LLMs inherently encode comprehensive
knowledge about website structures and functionalities. Specifically,
WebDreamer uses LLMs to simulate outcomes for each candidate action (e.g.,
"what would happen if I click this button?") using natural language
descriptions, and then evaluates these imagined outcomes to determine the
optimal action at each step. Empirical results on two representative web agent
benchmarks with online interaction -- VisualWebArena and Mind2Web-live --
demonstrate that WebDreamer achieves substantial improvements over reactive
baselines. By establishing the viability of LLMs as world models in web
environments, this work lays the groundwork for a paradigm shift in automated
web interaction. More broadly, our findings open exciting new avenues for
future research into 1) optimizing LLMs specifically for world modeling in
complex, dynamic environments, and 2) model-based speculative planning for
language agents.Summary
AI-Generated Summary