Agents Web Incarnés : Relier les Mondes Physiques et Numériques pour une Intelligence Agentielle Intégrée
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
June 18, 2025
Auteurs: Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang
cs.AI
Résumé
Les agents IA actuels fonctionnent principalement en silos : soit ils récupèrent et raisonnent sur de vastes quantités d'informations et de connaissances numériques obtenues en ligne ; soit ils interagissent avec le monde physique à travers la perception incarnée, la planification et l'action - mais rarement les deux. Cette séparation limite leur capacité à résoudre des tâches nécessitant une intelligence intégrée à la fois physique et numérique, comme cuisiner à partir de recettes en ligne, naviguer avec des données cartographiques dynamiques, ou interpréter des points de repère réels en utilisant des connaissances web. Nous introduisons les Embodied Web Agents, un nouveau paradigme pour les agents IA qui relient de manière fluide l'incarnation et le raisonnement à l'échelle du web. Pour concrétiser ce concept, nous développons d'abord les environnements de tâches des Embodied Web Agents, une plateforme de simulation unifiée qui intègre étroitement des environnements 3D réalistes en intérieur et en extérieur avec des interfaces web fonctionnelles. Sur la base de cette plateforme, nous construisons et publions le Benchmark des Embodied Web Agents, qui englobe une suite diversifiée de tâches incluant la cuisine, la navigation, les achats, le tourisme et la géolocalisation - toutes nécessitant un raisonnement coordonné entre les domaines physique et numérique pour une évaluation systématique de l'intelligence transdomaine. Les résultats expérimentaux révèlent des écarts de performance significatifs entre les systèmes IA de pointe et les capacités humaines, établissant à la fois des défis et des opportunités à l'intersection de la cognition incarnée et de l'accès aux connaissances à l'échelle du web. Tous les ensembles de données, codes et sites web sont disponibles publiquement sur notre page de projet https://embodied-web-agent.github.io/.
English
AI agents today are mostly siloed - they either retrieve and reason over vast
amount of digital information and knowledge obtained online; or interact with
the physical world through embodied perception, planning and action - but
rarely both. This separation limits their ability to solve tasks that require
integrated physical and digital intelligence, such as cooking from online
recipes, navigating with dynamic map data, or interpreting real-world landmarks
using web knowledge. We introduce Embodied Web Agents, a novel paradigm for AI
agents that fluidly bridge embodiment and web-scale reasoning. To
operationalize this concept, we first develop the Embodied Web Agents task
environments, a unified simulation platform that tightly integrates realistic
3D indoor and outdoor environments with functional web interfaces. Building
upon this platform, we construct and release the Embodied Web Agents Benchmark,
which encompasses a diverse suite of tasks including cooking, navigation,
shopping, tourism, and geolocation - all requiring coordinated reasoning across
physical and digital realms for systematic assessment of cross-domain
intelligence. Experimental results reveal significant performance gaps between
state-of-the-art AI systems and human capabilities, establishing both
challenges and opportunities at the intersection of embodied cognition and
web-scale knowledge access. All datasets, codes and websites are publicly
available at our project page https://embodied-web-agent.github.io/.