Agentes Web Incorporados: Conectando os Reinos Físico-Digital para uma Inteligência de Agentes Integrada
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
June 18, 2025
Autores: Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang
cs.AI
Resumo
Os agentes de IA atuais são, em sua maioria, isolados - eles ou recuperam e raciocinam sobre vastas quantidades de informações e conhecimentos digitais obtidos online; ou interagem com o mundo físico por meio de percepção, planejamento e ação incorporados - mas raramente ambos. Essa separação limita sua capacidade de resolver tarefas que exigem inteligência física e digital integrada, como cozinhar a partir de receitas online, navegar com dados de mapas dinâmicos ou interpretar pontos de referência do mundo real usando conhecimento da web. Introduzimos os Agentes Web Incorporados, um novo paradigma para agentes de IA que conectam fluidamente a incorporação e o raciocínio em escala web. Para operacionalizar esse conceito, primeiro desenvolvemos os ambientes de tarefas dos Agentes Web Incorporados, uma plataforma de simulação unificada que integra de forma estreita ambientes realistas 3D internos e externos com interfaces web funcionais. Com base nessa plataforma, construímos e disponibilizamos o Benchmark dos Agentes Web Incorporados, que abrange uma diversificada gama de tarefas, incluindo culinária, navegação, compras, turismo e geolocalização - todas exigindo raciocínio coordenado entre os domínios físico e digital para uma avaliação sistemática da inteligência entre domínios. Os resultados experimentais revelam lacunas significativas de desempenho entre os sistemas de IA de ponta e as capacidades humanas, estabelecendo tanto desafios quanto oportunidades na interseção entre cognição incorporada e acesso ao conhecimento em escala web. Todos os conjuntos de dados, códigos e sites estão publicamente disponíveis em nossa página do projeto https://embodied-web-agent.github.io/.
English
AI agents today are mostly siloed - they either retrieve and reason over vast
amount of digital information and knowledge obtained online; or interact with
the physical world through embodied perception, planning and action - but
rarely both. This separation limits their ability to solve tasks that require
integrated physical and digital intelligence, such as cooking from online
recipes, navigating with dynamic map data, or interpreting real-world landmarks
using web knowledge. We introduce Embodied Web Agents, a novel paradigm for AI
agents that fluidly bridge embodiment and web-scale reasoning. To
operationalize this concept, we first develop the Embodied Web Agents task
environments, a unified simulation platform that tightly integrates realistic
3D indoor and outdoor environments with functional web interfaces. Building
upon this platform, we construct and release the Embodied Web Agents Benchmark,
which encompasses a diverse suite of tasks including cooking, navigation,
shopping, tourism, and geolocation - all requiring coordinated reasoning across
physical and digital realms for systematic assessment of cross-domain
intelligence. Experimental results reveal significant performance gaps between
state-of-the-art AI systems and human capabilities, establishing both
challenges and opportunities at the intersection of embodied cognition and
web-scale knowledge access. All datasets, codes and websites are publicly
available at our project page https://embodied-web-agent.github.io/.