Agentes Web Encarnados: Conectando los Reinos Físico-Digitales para una Inteligencia de Agentes Integrada
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
June 18, 2025
Autores: Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang
cs.AI
Resumen
Los agentes de IA actualmente están mayormente aislados: o bien recuperan y razonan sobre vastas cantidades de información y conocimiento digital obtenido en línea, o interactúan con el mundo físico a través de percepción, planificación y acción encarnada, pero rara vez ambas cosas. Esta separación limita su capacidad para resolver tareas que requieren inteligencia física y digital integrada, como cocinar siguiendo recetas en línea, navegar con datos de mapas dinámicos o interpretar puntos de referencia del mundo real utilizando conocimiento web. Introducimos los Agentes Web Encarnados, un paradigma novedoso para agentes de IA que conectan fluidamente la encarnación y el razonamiento a escala web. Para operacionalizar este concepto, primero desarrollamos los entornos de tareas de Agentes Web Encarnados, una plataforma de simulación unificada que integra estrechamente entornos realistas en 3D, tanto interiores como exteriores, con interfaces web funcionales. Sobre esta plataforma, construimos y publicamos el Benchmark de Agentes Web Encarnados, que abarca una diversa gama de tareas que incluyen cocinar, navegar, comprar, turismo y geolocalización, todas las cuales requieren razonamiento coordinado entre los ámbitos físico y digital para una evaluación sistemática de la inteligencia interdominio. Los resultados experimentales revelan brechas significativas de rendimiento entre los sistemas de IA de vanguardia y las capacidades humanas, estableciendo tanto desafíos como oportunidades en la intersección de la cognición encarnada y el acceso al conocimiento a escala web. Todos los conjuntos de datos, códigos y sitios web están disponibles públicamente en nuestra página del proyecto: https://embodied-web-agent.github.io/.
English
AI agents today are mostly siloed - they either retrieve and reason over vast
amount of digital information and knowledge obtained online; or interact with
the physical world through embodied perception, planning and action - but
rarely both. This separation limits their ability to solve tasks that require
integrated physical and digital intelligence, such as cooking from online
recipes, navigating with dynamic map data, or interpreting real-world landmarks
using web knowledge. We introduce Embodied Web Agents, a novel paradigm for AI
agents that fluidly bridge embodiment and web-scale reasoning. To
operationalize this concept, we first develop the Embodied Web Agents task
environments, a unified simulation platform that tightly integrates realistic
3D indoor and outdoor environments with functional web interfaces. Building
upon this platform, we construct and release the Embodied Web Agents Benchmark,
which encompasses a diverse suite of tasks including cooking, navigation,
shopping, tourism, and geolocation - all requiring coordinated reasoning across
physical and digital realms for systematic assessment of cross-domain
intelligence. Experimental results reveal significant performance gaps between
state-of-the-art AI systems and human capabilities, establishing both
challenges and opportunities at the intersection of embodied cognition and
web-scale knowledge access. All datasets, codes and websites are publicly
available at our project page https://embodied-web-agent.github.io/.