ChatPaper.aiChatPaper

エンボディド・ウェブ・エージェント:物理的・デジタル領域を統合するエージェント知能の架け橋

Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence

June 18, 2025
著者: Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang
cs.AI

要旨

今日のAIエージェントは、主に分断された状態にあります。つまり、オンラインで得られた膨大なデジタル情報や知識を検索し、推論するか、あるいは身体的な知覚、計画、行動を通じて物理世界と相互作用するかのいずれかであり、両方を同時に行うことは稀です。この分断により、オンラインレシピを使った料理、動的な地図データを使ったナビゲーション、ウェブ知識を用いた現実世界のランドマークの解釈など、物理的およびデジタルの知能を統合する必要があるタスクを解決する能力が制限されています。私たちは、身体性とウェブ規模の推論をシームレスに橋渡しする新しいAIエージェントのパラダイムである「Embodied Web Agents」を紹介します。この概念を具体化するために、まず、現実的な3Dの屋内および屋外環境と機能的なウェブインターフェースを緊密に統合した「Embodied Web Agentsタスク環境」という統一シミュレーションプラットフォームを開発しました。このプラットフォームを基盤として、料理、ナビゲーション、ショッピング、観光、位置特定など、物理的およびデジタルの領域にわたる協調的な推論を必要とする多様なタスクを含む「Embodied Web Agentsベンチマーク」を構築し、公開しました。これにより、クロスドメインの知能を体系的に評価することが可能となります。実験結果からは、最先端のAIシステムと人間の能力との間に大きな性能差があることが明らかになり、身体的な認知とウェブ規模の知識アクセスの交差点における課題と機会が示されました。すべてのデータセット、コード、ウェブサイトは、プロジェクトページhttps://embodied-web-agent.github.io/で公開されています。
English
AI agents today are mostly siloed - they either retrieve and reason over vast amount of digital information and knowledge obtained online; or interact with the physical world through embodied perception, planning and action - but rarely both. This separation limits their ability to solve tasks that require integrated physical and digital intelligence, such as cooking from online recipes, navigating with dynamic map data, or interpreting real-world landmarks using web knowledge. We introduce Embodied Web Agents, a novel paradigm for AI agents that fluidly bridge embodiment and web-scale reasoning. To operationalize this concept, we first develop the Embodied Web Agents task environments, a unified simulation platform that tightly integrates realistic 3D indoor and outdoor environments with functional web interfaces. Building upon this platform, we construct and release the Embodied Web Agents Benchmark, which encompasses a diverse suite of tasks including cooking, navigation, shopping, tourism, and geolocation - all requiring coordinated reasoning across physical and digital realms for systematic assessment of cross-domain intelligence. Experimental results reveal significant performance gaps between state-of-the-art AI systems and human capabilities, establishing both challenges and opportunities at the intersection of embodied cognition and web-scale knowledge access. All datasets, codes and websites are publicly available at our project page https://embodied-web-agent.github.io/.
PDF151June 19, 2025