ChatPaper.aiChatPaper

Agentes Web con Modelos del Mundo: Aprendiendo y Aprovechando la Dinámica del Entorno en la Navegación Web

Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

October 17, 2024
Autores: Hyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong, Minju Gwak, Gwanwoo Song, Jihoon Kim, Sunghwan Kim, Dongha Lee, Jinyoung Yeo
cs.AI

Resumen

Los modelos de lenguaje grandes (LLMs) han ganado recientemente mucha atención en la construcción de agentes autónomos. Sin embargo, el rendimiento de los actuales agentes web basados en LLM en tareas de largo horizonte está lejos de ser óptimo, a menudo resultando en errores como la compra repetida de un boleto de avión no reembolsable. En contraste, los humanos pueden evitar tal error irreversible, ya que tenemos conciencia de los posibles resultados (por ejemplo, la pérdida de dinero) de nuestras acciones, también conocido como "modelo del mundo". Motivado por esto, nuestro estudio comienza primero con análisis preliminares, confirmando la ausencia de modelos del mundo en los actuales LLMs (por ejemplo, GPT-4o, Claude-3.5-Sonnet, etc.). Luego, presentamos un agente web aumentado con un modelo del mundo (WMA), que simula los resultados de sus acciones para una mejor toma de decisiones. Para superar los desafíos en el entrenamiento de LLMs como modelos del mundo que predicen las siguientes observaciones, como elementos repetidos entre observaciones y entradas HTML largas, proponemos una abstracción de observación centrada en la transición, donde los objetivos de predicción son descripciones en lenguaje natural de forma libre que resaltan exclusivamente las diferencias de estado importantes entre pasos de tiempo. Experimentos en WebArena y Mind2Web muestran que nuestros modelos del mundo mejoran la selección de políticas de los agentes sin entrenamiento y demuestran la eficiencia en costos y tiempo de nuestros agentes en comparación con agentes recientes basados en búsqueda de árboles.
English
Large language models (LLMs) have recently gained much attention in building autonomous agents. However, the performance of current LLM-based web agents in long-horizon tasks is far from optimal, often yielding errors such as repeatedly buying a non-refundable flight ticket. By contrast, humans can avoid such an irreversible mistake, as we have an awareness of the potential outcomes (e.g., losing money) of our actions, also known as the "world model". Motivated by this, our study first starts with preliminary analyses, confirming the absence of world models in current LLMs (e.g., GPT-4o, Claude-3.5-Sonnet, etc.). Then, we present a World-model-augmented (WMA) web agent, which simulates the outcomes of its actions for better decision-making. To overcome the challenges in training LLMs as world models predicting next observations, such as repeated elements across observations and long HTML inputs, we propose a transition-focused observation abstraction, where the prediction objectives are free-form natural language descriptions exclusively highlighting important state differences between time steps. Experiments on WebArena and Mind2Web show that our world models improve agents' policy selection without training and demonstrate our agents' cost- and time-efficiency compared to recent tree-search-based agents.

Summary

AI-Generated Summary

PDF442November 16, 2024