O Seu LLM é Secretamente um Modelo Mundial da Internet? Planeamento Baseado em Modelos para Agentes Web
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents
November 10, 2024
Autores: Yu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su
cs.AI
Resumo
Agentes de linguagem têm demonstrado capacidades promissoras na automatização de tarefas baseadas na web, embora suas abordagens reativas atuais ainda apresentem desempenho inferior em grande parte em comparação com os humanos. A incorporação de algoritmos avançados de planejamento, particularmente métodos de busca em árvore, poderia aprimorar o desempenho desses agentes, no entanto, implementar a busca em árvore diretamente em sites ao vivo apresenta riscos significativos de segurança e restrições práticas devido a ações irreversíveis, como a confirmação de uma compra. Neste artigo, introduzimos um novo paradigma que aprimora agentes de linguagem com planejamento baseado em modelo, pioneirizando o uso inovador de grandes modelos de linguagem (LLMs) como modelos do mundo em ambientes web complexos. Nosso método, WebDreamer, baseia-se na percepção fundamental de que os LLMs codificam inerentemente conhecimento abrangente sobre estruturas e funcionalidades de sites. Especificamente, o WebDreamer utiliza LLMs para simular resultados para cada ação candidata (por exemplo, "o que aconteceria se eu clicasse neste botão?") usando descrições em linguagem natural, e então avalia esses resultados imaginados para determinar a ação ótima em cada etapa. Resultados empíricos em dois benchmarks representativos de agentes web com interação online - VisualWebArena e Mind2Web-live - demonstram que o WebDreamer alcança melhorias substanciais em relação às bases reativas. Ao estabelecer a viabilidade dos LLMs como modelos do mundo em ambientes web, este trabalho lança as bases para uma mudança de paradigma na interação web automatizada. Mais amplamente, nossas descobertas abrem novas e empolgantes possibilidades para futuras pesquisas em 1) otimização de LLMs especificamente para modelagem do mundo em ambientes complexos e dinâmicos, e 2) planejamento especulativo baseado em modelo para agentes de linguagem.
English
Language agents have demonstrated promising capabilities in automating
web-based tasks, though their current reactive approaches still underperform
largely compared to humans. While incorporating advanced planning algorithms,
particularly tree search methods, could enhance these agents' performance,
implementing tree search directly on live websites poses significant safety
risks and practical constraints due to irreversible actions such as confirming
a purchase. In this paper, we introduce a novel paradigm that augments language
agents with model-based planning, pioneering the innovative use of large
language models (LLMs) as world models in complex web environments. Our method,
WebDreamer, builds on the key insight that LLMs inherently encode comprehensive
knowledge about website structures and functionalities. Specifically,
WebDreamer uses LLMs to simulate outcomes for each candidate action (e.g.,
"what would happen if I click this button?") using natural language
descriptions, and then evaluates these imagined outcomes to determine the
optimal action at each step. Empirical results on two representative web agent
benchmarks with online interaction -- VisualWebArena and Mind2Web-live --
demonstrate that WebDreamer achieves substantial improvements over reactive
baselines. By establishing the viability of LLMs as world models in web
environments, this work lays the groundwork for a paradigm shift in automated
web interaction. More broadly, our findings open exciting new avenues for
future research into 1) optimizing LLMs specifically for world modeling in
complex, dynamic environments, and 2) model-based speculative planning for
language agents.Summary
AI-Generated Summary