反応的から認知的へ:身体化エージェントのための脳に着想を得た空間知能
From reactive to cognitive: brain-inspired spatial intelligence for embodied agents
August 24, 2025
著者: Shouwei Ruan, Liyuan Wang, Caixin Kang, Qihui Zhu, Songming Liu, Xingxing Wei, Hang Su
cs.AI
要旨
空間認知は、空間の内部モデルを構築することで適応的な目標指向行動を可能にする。堅牢な生物学的システムは、空間知識を3つの相互接続された形式に統合する:顕著な手がかりのためのランドマーク、移動軌跡のための経路知識、地図のような表現のための俯瞰知識である。近年のマルチモーダル大規模言語モデル(MLLMs)の進展により、具現化エージェントにおける視覚-言語推論が可能になったが、これらの取り組みは構造化された空間記憶を欠いており、反応的に動作するため、複雑な現実世界の環境における汎化と適応性が制限されている。本論文では、具現化エージェントにおける構造化された空間記憶の構築と活用のための統一フレームワークであるBrain-inspired Spatial Cognition for Navigation(BSC-Nav)を提案する。BSC-Navは、エゴセントリックな軌跡と文脈的手がかりからアロセントリックな認知地図を構築し、意味的目標に沿った空間知識を動的に検索する。強力なMLLMsと統合されたBSC-Navは、多様なナビゲーションタスクにおいて最先端の有効性と効率性を達成し、強力なゼロショット汎化を示し、現実の物理世界における多様な具現化行動をサポートする。これにより、汎用空間知能に向けたスケーラブルで生物学的に基づいた道筋を提供する。
English
Spatial cognition enables adaptive goal-directed behavior by constructing
internal models of space. Robust biological systems consolidate spatial
knowledge into three interconnected forms: landmarks for salient cues,
route knowledge for movement trajectories, and survey
knowledge for map-like representations. While recent advances in multi-modal
large language models (MLLMs) have enabled visual-language reasoning in
embodied agents, these efforts lack structured spatial memory and instead
operate reactively, limiting their generalization and adaptability in complex
real-world environments. Here we present Brain-inspired Spatial Cognition for
Navigation (BSC-Nav), a unified framework for constructing and leveraging
structured spatial memory in embodied agents. BSC-Nav builds allocentric
cognitive maps from egocentric trajectories and contextual cues, and
dynamically retrieves spatial knowledge aligned with semantic goals. Integrated
with powerful MLLMs, BSC-Nav achieves state-of-the-art efficacy and efficiency
across diverse navigation tasks, demonstrates strong zero-shot generalization,
and supports versatile embodied behaviors in the real physical world, offering
a scalable and biologically grounded path toward general-purpose spatial
intelligence.