ChatPaper.aiChatPaper

Verkörperte Web-Agenten: Überbrückung der physisch-digitalen Sphären für integrierte Agentenintelligenz

Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence

June 18, 2025
Autoren: Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang
cs.AI

Zusammenfassung

KI-Agenten sind heute größtenteils isoliert – sie verarbeiten entweder umfangreiche digitale Informationen und Wissen, die online abgerufen werden, oder interagieren durch verkörperte Wahrnehmung, Planung und Handlung mit der physischen Welt – jedoch selten beides. Diese Trennung schränkt ihre Fähigkeit ein, Aufgaben zu lösen, die eine integrierte physische und digitale Intelligenz erfordern, wie das Kochen nach Online-Rezepten, die Navigation mit dynamischen Kartendaten oder die Interpretation realer Wahrzeichen mithilfe von Webwissen. Wir stellen „Embodied Web Agents“ vor, ein neuartiges Paradigma für KI-Agenten, das Verkörperung und webbasiertes Denken nahtlos verbindet. Um dieses Konzept umzusetzen, entwickeln wir zunächst die „Embodied Web Agents“-Aufgabenumgebungen, eine einheitliche Simulationsplattform, die realistische 3D-Innen- und Außenumgebungen mit funktionalen Web-Schnittstellen eng integriert. Aufbauend auf dieser Plattform erstellen und veröffentlichen wir den „Embodied Web Agents Benchmark“, der eine vielfältige Reihe von Aufgaben umfasst, darunter Kochen, Navigation, Einkaufen, Tourismus und Geolokalisierung – allesamt Aufgaben, die koordiniertes Denken über physische und digitale Bereiche hinweg erfordern, um die domänenübergreifende Intelligenz systematisch zu bewerten. Experimentelle Ergebnisse zeigen erhebliche Leistungslücken zwischen modernsten KI-Systemen und menschlichen Fähigkeiten auf und verdeutlichen sowohl Herausforderungen als auch Chancen an der Schnittstelle von verkörperter Kognition und dem Zugang zu webbasiertem Wissen. Alle Datensätze, Codes und Websites sind auf unserer Projektseite https://embodied-web-agent.github.io/ öffentlich verfügbar.
English
AI agents today are mostly siloed - they either retrieve and reason over vast amount of digital information and knowledge obtained online; or interact with the physical world through embodied perception, planning and action - but rarely both. This separation limits their ability to solve tasks that require integrated physical and digital intelligence, such as cooking from online recipes, navigating with dynamic map data, or interpreting real-world landmarks using web knowledge. We introduce Embodied Web Agents, a novel paradigm for AI agents that fluidly bridge embodiment and web-scale reasoning. To operationalize this concept, we first develop the Embodied Web Agents task environments, a unified simulation platform that tightly integrates realistic 3D indoor and outdoor environments with functional web interfaces. Building upon this platform, we construct and release the Embodied Web Agents Benchmark, which encompasses a diverse suite of tasks including cooking, navigation, shopping, tourism, and geolocation - all requiring coordinated reasoning across physical and digital realms for systematic assessment of cross-domain intelligence. Experimental results reveal significant performance gaps between state-of-the-art AI systems and human capabilities, establishing both challenges and opportunities at the intersection of embodied cognition and web-scale knowledge access. All datasets, codes and websites are publicly available at our project page https://embodied-web-agent.github.io/.
PDF151June 19, 2025