O Seu LLM é Secretamente um Modelo Mundial da Internet? Planeamento Baseado em Modelos para Agentes Web

Resumo

Agentes de linguagem têm demonstrado capacidades promissoras na automatização de tarefas baseadas na web, embora suas abordagens reativas atuais ainda apresentem desempenho inferior em grande parte em comparação com os humanos. A incorporação de algoritmos avançados de planejamento, particularmente métodos de busca em árvore, poderia aprimorar o desempenho desses agentes, no entanto, implementar a busca em árvore diretamente em sites ao vivo apresenta riscos significativos de segurança e restrições práticas devido a ações irreversíveis, como a confirmação de uma compra. Neste artigo, introduzimos um novo paradigma que aprimora agentes de linguagem com planejamento baseado em modelo, pioneirizando o uso inovador de grandes modelos de linguagem (LLMs) como modelos do mundo em ambientes web complexos. Nosso método, WebDreamer, baseia-se na percepção fundamental de que os LLMs codificam inerentemente conhecimento abrangente sobre estruturas e funcionalidades de sites. Especificamente, o WebDreamer utiliza LLMs para simular resultados para cada ação candidata (por exemplo, "o que aconteceria se eu clicasse neste botão?") usando descrições em linguagem natural, e então avalia esses resultados imaginados para determinar a ação ótima em cada etapa. Resultados empíricos em dois benchmarks representativos de agentes web com interação online - VisualWebArena e Mind2Web-live - demonstram que o WebDreamer alcança melhorias substanciais em relação às bases reativas. Ao estabelecer a viabilidade dos LLMs como modelos do mundo em ambientes web, este trabalho lança as bases para uma mudança de paradigma na interação web automatizada. Mais amplamente, nossas descobertas abrem novas e empolgantes possibilidades para futuras pesquisas em 1) otimização de LLMs especificamente para modelagem do mundo em ambientes complexos e dinâmicos, e 2) planejamento especulativo baseado em modelo para agentes de linguagem.

English

Language agents have demonstrated promising capabilities in automating web-based tasks, though their current reactive approaches still underperform largely compared to humans. While incorporating advanced planning algorithms, particularly tree search methods, could enhance these agents' performance, implementing tree search directly on live websites poses significant safety risks and practical constraints due to irreversible actions such as confirming a purchase. In this paper, we introduce a novel paradigm that augments language agents with model-based planning, pioneering the innovative use of large language models (LLMs) as world models in complex web environments. Our method, WebDreamer, builds on the key insight that LLMs inherently encode comprehensive knowledge about website structures and functionalities. Specifically, WebDreamer uses LLMs to simulate outcomes for each candidate action (e.g., "what would happen if I click this button?") using natural language descriptions, and then evaluates these imagined outcomes to determine the optimal action at each step. Empirical results on two representative web agent benchmarks with online interaction -- VisualWebArena and Mind2Web-live -- demonstrate that WebDreamer achieves substantial improvements over reactive baselines. By establishing the viability of LLMs as world models in web environments, this work lays the groundwork for a paradigm shift in automated web interaction. More broadly, our findings open exciting new avenues for future research into 1) optimizing LLMs specifically for world modeling in complex, dynamic environments, and 2) model-based speculative planning for language agents.

O Seu LLM é Secretamente um Modelo Mundial da Internet? Planeamento Baseado em Modelos para Agentes Web

Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents

Resumo

Support