Является ли ваш LLM тайным мировой моделью Интернета? Модельное планирование для веб-агентов.
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents
November 10, 2024
Авторы: Yu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su
cs.AI
Аннотация
Языковые агенты продемонстрировали многообещающие возможности в автоматизации задач веб-ориентированных, однако их текущие реактивные подходы все еще значительно уступают по сравнению с людьми. Внедрение передовых алгоритмов планирования, в частности методов поиска дерева, может улучшить производительность этих агентов, однако прямая реализация поиска дерева на живых веб-сайтах представляет существенные риски безопасности и практические ограничения из-за необратимых действий, таких как подтверждение покупки. В данной статье мы представляем новую парадигму, которая дополняет языковых агентов модельным планированием, открывая инновационное применение больших языковых моделей (LLM) в качестве моделей мира в сложных веб-средах. Наш метод, WebDreamer, основан на ключевом умозаключении, что LLM интегрируют в себе всесторонние знания о структурах и функциональности веб-сайтов. Конкретно, WebDreamer использует LLM для моделирования результатов для каждого кандидатского действия (например, "что произойдет, если я нажму эту кнопку?") с использованием описаний на естественном языке, а затем оценивает эти воображаемые результаты для определения оптимального действия на каждом шаге. Эмпирические результаты на двух представительных бенчмарках веб-агентов с онлайн-взаимодействием - VisualWebArena и Mind2Web-live - показывают, что WebDreamer достигает существенных улучшений по сравнению с реактивными базовыми значениями. Установив жизнеспособность LLM в качестве моделей мира в веб-средах, данная работа заложила основу для парадигмального изменения в автоматизированном взаимодействии с веб-сайтами. Более широко, наши результаты открывают захватывающие новые перспективы для будущих исследований в области 1) оптимизации LLM специально для моделирования мира в сложных, динамических средах и 2) модельного спекулятивного планирования для языковых агентов.
English
Language agents have demonstrated promising capabilities in automating
web-based tasks, though their current reactive approaches still underperform
largely compared to humans. While incorporating advanced planning algorithms,
particularly tree search methods, could enhance these agents' performance,
implementing tree search directly on live websites poses significant safety
risks and practical constraints due to irreversible actions such as confirming
a purchase. In this paper, we introduce a novel paradigm that augments language
agents with model-based planning, pioneering the innovative use of large
language models (LLMs) as world models in complex web environments. Our method,
WebDreamer, builds on the key insight that LLMs inherently encode comprehensive
knowledge about website structures and functionalities. Specifically,
WebDreamer uses LLMs to simulate outcomes for each candidate action (e.g.,
"what would happen if I click this button?") using natural language
descriptions, and then evaluates these imagined outcomes to determine the
optimal action at each step. Empirical results on two representative web agent
benchmarks with online interaction -- VisualWebArena and Mind2Web-live --
demonstrate that WebDreamer achieves substantial improvements over reactive
baselines. By establishing the viability of LLMs as world models in web
environments, this work lays the groundwork for a paradigm shift in automated
web interaction. More broadly, our findings open exciting new avenues for
future research into 1) optimizing LLMs specifically for world modeling in
complex, dynamic environments, and 2) model-based speculative planning for
language agents.Summary
AI-Generated Summary