Embodied Web Agents: Het overbruggen van fysiek-digitale domeinen voor geïntegreerde agentintelligentie
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
June 18, 2025
Auteurs: Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang
cs.AI
Samenvatting
AI-agents zijn tegenwoordig grotendeels geïsoleerd - ze halen en redeneren over enorme hoeveelheden digitale informatie en kennis die online is verkregen; of ze interageren met de fysieke wereld door middel van belichaamde perceptie, planning en actie - maar zelden beide. Deze scheiding beperkt hun vermogen om taken op te lossen die geïntegreerde fysieke en digitale intelligentie vereisen, zoals koken met online recepten, navigeren met dynamische kaartgegevens, of het interpreteren van real-world herkenningspunten met behulp van webkennis. Wij introduceren Embodied Web Agents, een nieuw paradigma voor AI-agents die naadloos belichaming en web-schaal redeneren overbruggen. Om dit concept operationeel te maken, ontwikkelen we eerst de Embodied Web Agents-taakomgevingen, een geïntegreerd simulatieplatform dat realistische 3D binnen- en buitenomgevingen nauw integreert met functionele webinterfaces. Op basis van dit platform construeren en publiceren we de Embodied Web Agents Benchmark, die een diverse reeks taken omvat, waaronder koken, navigatie, winkelen, toerisme en geolocatie - allemaal vereisen ze gecoördineerd redeneren over fysieke en digitale domeinen voor een systematische beoordeling van cross-domein intelligentie. Experimentele resultaten onthullen aanzienlijke prestatiekloof tussen state-of-the-art AI-systemen en menselijke capaciteiten, wat zowel uitdagingen als kansen vaststelt op het snijvlak van belichaamde cognitie en web-schaal kennis toegang. Alle datasets, codes en websites zijn openbaar beschikbaar op onze projectpagina https://embodied-web-agent.github.io/.
English
AI agents today are mostly siloed - they either retrieve and reason over vast
amount of digital information and knowledge obtained online; or interact with
the physical world through embodied perception, planning and action - but
rarely both. This separation limits their ability to solve tasks that require
integrated physical and digital intelligence, such as cooking from online
recipes, navigating with dynamic map data, or interpreting real-world landmarks
using web knowledge. We introduce Embodied Web Agents, a novel paradigm for AI
agents that fluidly bridge embodiment and web-scale reasoning. To
operationalize this concept, we first develop the Embodied Web Agents task
environments, a unified simulation platform that tightly integrates realistic
3D indoor and outdoor environments with functional web interfaces. Building
upon this platform, we construct and release the Embodied Web Agents Benchmark,
which encompasses a diverse suite of tasks including cooking, navigation,
shopping, tourism, and geolocation - all requiring coordinated reasoning across
physical and digital realms for systematic assessment of cross-domain
intelligence. Experimental results reveal significant performance gaps between
state-of-the-art AI systems and human capabilities, establishing both
challenges and opportunities at the intersection of embodied cognition and
web-scale knowledge access. All datasets, codes and websites are publicly
available at our project page https://embodied-web-agent.github.io/.