Agenti Web Incorporati: Colmare i Regni Fisico-Digitali per un'Intelligenza Agente Integrata
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
June 18, 2025
Autori: Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang
cs.AI
Abstract
Gli agenti AI odierni sono per lo più isolati: o recuperano e ragionano su vaste quantità di informazioni e conoscenze digitali ottenute online, oppure interagiscono con il mondo fisico attraverso percezione, pianificazione e azione incarnata, ma raramente entrambe. Questa separazione limita la loro capacità di risolvere compiti che richiedono un'intelligenza integrata fisica e digitale, come cucinare seguendo ricette online, navigare utilizzando dati cartografici dinamici o interpretare punti di riferimento del mondo reale sfruttando conoscenze web. Introduciamo gli Embodied Web Agents, un nuovo paradigma per gli agenti AI che collega fluidamente l'incarnazione e il ragionamento su scala web. Per rendere operativo questo concetto, sviluppiamo innanzitutto gli ambienti di task degli Embodied Web Agents, una piattaforma di simulazione unificata che integra strettamente ambienti 3D realistici, sia interni che esterni, con interfacce web funzionali. Basandoci su questa piattaforma, costruiamo e rilasciamo il Benchmark degli Embodied Web Agents, che comprende una serie diversificata di compiti tra cui cucinare, navigare, fare acquisti, turismo e geolocalizzazione, tutti richiedenti un ragionamento coordinato tra i domini fisico e digitale per una valutazione sistematica dell'intelligenza cross-domain. I risultati sperimentali rivelano significativi divari di prestazione tra i sistemi AI all'avanguardia e le capacità umane, delineando sia sfide che opportunità all'intersezione tra cognizione incarnata e accesso a conoscenze su scala web. Tutti i dataset, i codici e i siti web sono disponibili pubblicamente alla pagina del nostro progetto https://embodied-web-agent.github.io/.
English
AI agents today are mostly siloed - they either retrieve and reason over vast
amount of digital information and knowledge obtained online; or interact with
the physical world through embodied perception, planning and action - but
rarely both. This separation limits their ability to solve tasks that require
integrated physical and digital intelligence, such as cooking from online
recipes, navigating with dynamic map data, or interpreting real-world landmarks
using web knowledge. We introduce Embodied Web Agents, a novel paradigm for AI
agents that fluidly bridge embodiment and web-scale reasoning. To
operationalize this concept, we first develop the Embodied Web Agents task
environments, a unified simulation platform that tightly integrates realistic
3D indoor and outdoor environments with functional web interfaces. Building
upon this platform, we construct and release the Embodied Web Agents Benchmark,
which encompasses a diverse suite of tasks including cooking, navigation,
shopping, tourism, and geolocation - all requiring coordinated reasoning across
physical and digital realms for systematic assessment of cross-domain
intelligence. Experimental results reveal significant performance gaps between
state-of-the-art AI systems and human capabilities, establishing both
challenges and opportunities at the intersection of embodied cognition and
web-scale knowledge access. All datasets, codes and websites are publicly
available at our project page https://embodied-web-agent.github.io/.