Agents Web Incarnés : Relier les Mondes Physiques et Numériques pour une Intelligence Agentielle Intégrée

papers.abstract

Les agents IA actuels fonctionnent principalement en silos : soit ils récupèrent et raisonnent sur de vastes quantités d'informations et de connaissances numériques obtenues en ligne ; soit ils interagissent avec le monde physique à travers la perception incarnée, la planification et l'action - mais rarement les deux. Cette séparation limite leur capacité à résoudre des tâches nécessitant une intelligence intégrée à la fois physique et numérique, comme cuisiner à partir de recettes en ligne, naviguer avec des données cartographiques dynamiques, ou interpréter des points de repère réels en utilisant des connaissances web. Nous introduisons les Embodied Web Agents, un nouveau paradigme pour les agents IA qui relient de manière fluide l'incarnation et le raisonnement à l'échelle du web. Pour concrétiser ce concept, nous développons d'abord les environnements de tâches des Embodied Web Agents, une plateforme de simulation unifiée qui intègre étroitement des environnements 3D réalistes en intérieur et en extérieur avec des interfaces web fonctionnelles. Sur la base de cette plateforme, nous construisons et publions le Benchmark des Embodied Web Agents, qui englobe une suite diversifiée de tâches incluant la cuisine, la navigation, les achats, le tourisme et la géolocalisation - toutes nécessitant un raisonnement coordonné entre les domaines physique et numérique pour une évaluation systématique de l'intelligence transdomaine. Les résultats expérimentaux révèlent des écarts de performance significatifs entre les systèmes IA de pointe et les capacités humaines, établissant à la fois des défis et des opportunités à l'intersection de la cognition incarnée et de l'accès aux connaissances à l'échelle du web. Tous les ensembles de données, codes et sites web sont disponibles publiquement sur notre page de projet https://embodied-web-agent.github.io/.

English

AI agents today are mostly siloed - they either retrieve and reason over vast amount of digital information and knowledge obtained online; or interact with the physical world through embodied perception, planning and action - but rarely both. This separation limits their ability to solve tasks that require integrated physical and digital intelligence, such as cooking from online recipes, navigating with dynamic map data, or interpreting real-world landmarks using web knowledge. We introduce Embodied Web Agents, a novel paradigm for AI agents that fluidly bridge embodiment and web-scale reasoning. To operationalize this concept, we first develop the Embodied Web Agents task environments, a unified simulation platform that tightly integrates realistic 3D indoor and outdoor environments with functional web interfaces. Building upon this platform, we construct and release the Embodied Web Agents Benchmark, which encompasses a diverse suite of tasks including cooking, navigation, shopping, tourism, and geolocation - all requiring coordinated reasoning across physical and digital realms for systematic assessment of cross-domain intelligence. Experimental results reveal significant performance gaps between state-of-the-art AI systems and human capabilities, establishing both challenges and opportunities at the intersection of embodied cognition and web-scale knowledge access. All datasets, codes and websites are publicly available at our project page https://embodied-web-agent.github.io/.

Agents Web Incarnés : Relier les Mondes Physiques et Numériques pour une Intelligence Agentielle Intégrée

Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence

papers.abstract

Support