ChatPaper.aiChatPaper

구현된 웹 에이전트: 통합 에이전트 지능을 위한 물리적-디지털 영역의 연결

Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence

June 18, 2025
저자: Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang
cs.AI

초록

오늘날의 AI 에이전트는 대부분 고립되어 있습니다. 이들은 온라인에서 얻은 방대한 디지털 정보와 지식을 검색하고 추론하거나, 구체화된 지각, 계획 및 행동을 통해 물리적 세계와 상호작용하지만, 둘 다를 동시에 수행하는 경우는 드뭅니다. 이러한 분리는 온라인 레시피를 활용한 요리, 동적 지도 데이터를 이용한 내비게이션, 웹 지식을 활용한 실제 랜드마크 해석과 같이 물리적 및 디지털 지능의 통합을 요구하는 과제 해결 능력을 제한합니다. 우리는 구체화와 웹 규모의 추론을 유연하게 연결하는 새로운 AI 에이전트 패러다임인 '구체화 웹 에이전트(Embodied Web Agents)'를 소개합니다. 이 개념을 실현하기 위해, 먼저 현실적인 3D 실내외 환경과 기능적인 웹 인터페이스를 긴밀히 통합한 통합 시뮬레이션 플랫폼인 '구체화 웹 에이전트 과제 환경'을 개발했습니다. 이 플랫폼을 기반으로, 요리, 내비게이션, 쇼핑, 관광, 지리적 위치 파악 등 다양한 과제를 포함한 '구체화 웹 에이전트 벤치마크'를 구축하고 공개했습니다. 이 벤치마크는 물리적 및 디지털 영역을 넘나드는 조정된 추론을 요구하며, 도메인 간 지능의 체계적인 평가를 목표로 합니다. 실험 결과는 최첨단 AI 시스템과 인간의 능력 간에 상당한 성능 격차를 보여주며, 구체화된 인지와 웹 규모의 지식 접근이 교차하는 지점에서의 도전과 기회를 제시합니다. 모든 데이터셋, 코드 및 웹사이트는 프로젝트 페이지(https://embodied-web-agent.github.io/)에서 공개적으로 제공됩니다.
English
AI agents today are mostly siloed - they either retrieve and reason over vast amount of digital information and knowledge obtained online; or interact with the physical world through embodied perception, planning and action - but rarely both. This separation limits their ability to solve tasks that require integrated physical and digital intelligence, such as cooking from online recipes, navigating with dynamic map data, or interpreting real-world landmarks using web knowledge. We introduce Embodied Web Agents, a novel paradigm for AI agents that fluidly bridge embodiment and web-scale reasoning. To operationalize this concept, we first develop the Embodied Web Agents task environments, a unified simulation platform that tightly integrates realistic 3D indoor and outdoor environments with functional web interfaces. Building upon this platform, we construct and release the Embodied Web Agents Benchmark, which encompasses a diverse suite of tasks including cooking, navigation, shopping, tourism, and geolocation - all requiring coordinated reasoning across physical and digital realms for systematic assessment of cross-domain intelligence. Experimental results reveal significant performance gaps between state-of-the-art AI systems and human capabilities, establishing both challenges and opportunities at the intersection of embodied cognition and web-scale knowledge access. All datasets, codes and websites are publicly available at our project page https://embodied-web-agent.github.io/.
PDF151June 19, 2025