ChatPaper.aiChatPaper

반응적에서 인지적로: 구현된 에이전트를 위한 뇌 영감 공간 지능

From reactive to cognitive: brain-inspired spatial intelligence for embodied agents

August 24, 2025
저자: Shouwei Ruan, Liyuan Wang, Caixin Kang, Qihui Zhu, Songming Liu, Xingxing Wei, Hang Su
cs.AI

초록

공간 인지 능력은 공간의 내부 모델을 구축함으로써 적응적인 목표 지향적 행동을 가능하게 합니다. 강력한 생물학적 시스템은 공간 지식을 세 가지 상호 연결된 형태로 통합합니다: 두드러지는 단서를 위한 랜드마크, 이동 궤적을 위한 경로 지식, 그리고 지도와 같은 표현을 위한 조사 지식입니다. 최근 다중 모드 대형 언어 모델(MLLMs)의 발전으로 구체화된 에이전트에서 시각-언어 추론이 가능해졌지만, 이러한 노력들은 구조화된 공간 기억이 부족하고 반응적으로 작동하여 복잡한 실제 환경에서의 일반화와 적응성이 제한됩니다. 본 연구에서는 구체화된 에이전트에서 구조화된 공간 기억을 구축하고 활용하기 위한 통합 프레임워크인 Brain-inspired Spatial Cognition for Navigation(BSC-Nav)를 제시합니다. BSC-Nav는 자기 중심적 궤적과 맥락적 단서로부터 전체 중심적 인지 지도를 구축하고, 의미론적 목표에 부합하는 공간 지식을 동적으로 검색합니다. 강력한 MLLMs와 통합된 BSC-Nav는 다양한 탐색 작업에서 최첨단의 효율성과 효과를 달성하며, 강력한 제로샷 일반화를 보여주고, 실제 물리 세계에서 다재다능한 구체화된 행동을 지원함으로써 일반적인 공간 지능을 향한 확장 가능하고 생물학적으로 근거된 길을 제시합니다.
English
Spatial cognition enables adaptive goal-directed behavior by constructing internal models of space. Robust biological systems consolidate spatial knowledge into three interconnected forms: landmarks for salient cues, route knowledge for movement trajectories, and survey knowledge for map-like representations. While recent advances in multi-modal large language models (MLLMs) have enabled visual-language reasoning in embodied agents, these efforts lack structured spatial memory and instead operate reactively, limiting their generalization and adaptability in complex real-world environments. Here we present Brain-inspired Spatial Cognition for Navigation (BSC-Nav), a unified framework for constructing and leveraging structured spatial memory in embodied agents. BSC-Nav builds allocentric cognitive maps from egocentric trajectories and contextual cues, and dynamically retrieves spatial knowledge aligned with semantic goals. Integrated with powerful MLLMs, BSC-Nav achieves state-of-the-art efficacy and efficiency across diverse navigation tasks, demonstrates strong zero-shot generalization, and supports versatile embodied behaviors in the real physical world, offering a scalable and biologically grounded path toward general-purpose spatial intelligence.
PDF62September 2, 2025