Воплощенные веб-агенты: объединение физического и цифрового миров для создания интегрированного агентного интеллекта
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
June 18, 2025
Авторы: Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang
cs.AI
Аннотация
Современные ИИ-агенты в основном изолированы — они либо извлекают и анализируют огромные объемы цифровой информации и знаний, полученных из интернета, либо взаимодействуют с физическим миром через воплощенное восприятие, планирование и действия, но редко делают и то, и другое одновременно. Это разделение ограничивает их способность решать задачи, требующие интегрированной физической и цифровой интеллектуальной деятельности, такие как приготовление пищи по онлайн-рецептам, навигация с использованием динамических карт или интерпретация реальных достопримечательностей с использованием веб-знаний. Мы представляем новый подход — Воплощенных Веб-Агентов (Embodied Web Agents), который плавно объединяет воплощенное взаимодействие и масштабируемое веб-рассуждение. Для реализации этой концепции мы сначала разработали среду задач для Воплощенных Веб-Агентов — унифицированную симуляционную платформу, которая тесно интегрирует реалистичные 3D-интерьеры и экстерьеры с функциональными веб-интерфейсами. На основе этой платформы мы создали и опубликовали Бенчмарк Воплощенных Веб-Агентов, включающий разнообразные задачи, такие как приготовление пищи, навигация, шопинг, туризм и геолокация, — все они требуют скоординированного рассуждения в физической и цифровой сферах для систематической оценки кросс-доменного интеллекта. Результаты экспериментов выявили значительный разрыв в производительности между современными ИИ-системами и человеческими возможностями, что указывает на вызовы и перспективы на стыке воплощенного познания и доступа к веб-знаниям. Все наборы данных, коды и веб-сайты доступны на нашей странице проекта: https://embodied-web-agent.github.io/.
English
AI agents today are mostly siloed - they either retrieve and reason over vast
amount of digital information and knowledge obtained online; or interact with
the physical world through embodied perception, planning and action - but
rarely both. This separation limits their ability to solve tasks that require
integrated physical and digital intelligence, such as cooking from online
recipes, navigating with dynamic map data, or interpreting real-world landmarks
using web knowledge. We introduce Embodied Web Agents, a novel paradigm for AI
agents that fluidly bridge embodiment and web-scale reasoning. To
operationalize this concept, we first develop the Embodied Web Agents task
environments, a unified simulation platform that tightly integrates realistic
3D indoor and outdoor environments with functional web interfaces. Building
upon this platform, we construct and release the Embodied Web Agents Benchmark,
which encompasses a diverse suite of tasks including cooking, navigation,
shopping, tourism, and geolocation - all requiring coordinated reasoning across
physical and digital realms for systematic assessment of cross-domain
intelligence. Experimental results reveal significant performance gaps between
state-of-the-art AI systems and human capabilities, establishing both
challenges and opportunities at the intersection of embodied cognition and
web-scale knowledge access. All datasets, codes and websites are publicly
available at our project page https://embodied-web-agent.github.io/.