De reativo a cognitivo: inteligência espacial inspirada no cérebro para agentes corporificados
From reactive to cognitive: brain-inspired spatial intelligence for embodied agents
August 24, 2025
Autores: Shouwei Ruan, Liyuan Wang, Caixin Kang, Qihui Zhu, Songming Liu, Xingxing Wei, Hang Su
cs.AI
Resumo
A cognição espacial permite comportamentos adaptativos orientados a objetivos através da construção de modelos internos do espaço. Sistemas biológicos robustos consolidam o conhecimento espacial em três formas interconectadas: marcos para pistas salientes, conhecimento de rotas para trajetórias de movimento e conhecimento de levantamento para representações semelhantes a mapas. Embora avanços recentes em modelos de linguagem multimodal (MLLMs) tenham possibilitado o raciocínio visual-linguístico em agentes corporificados, esses esforços carecem de memória espacial estruturada e operam de forma reativa, limitando sua generalização e adaptabilidade em ambientes complexos do mundo real. Aqui, apresentamos o Brain-inspired Spatial Cognition for Navigation (BSC-Nav), uma estrutura unificada para construir e aproveitar memória espacial estruturada em agentes corporificados. O BSC-Nav constrói mapas cognitivos alocêntricos a partir de trajetórias egocêntricas e pistas contextuais, e recupera dinamicamente o conhecimento espacial alinhado com objetivos semânticos. Integrado a poderosos MLLMs, o BSC-Nav alcança eficácia e eficiência de ponta em diversas tarefas de navegação, demonstra forte generalização zero-shot e suporta comportamentos corporificados versáteis no mundo físico real, oferecendo um caminho escalável e biologicamente fundamentado para a inteligência espacial de propósito geral.
English
Spatial cognition enables adaptive goal-directed behavior by constructing
internal models of space. Robust biological systems consolidate spatial
knowledge into three interconnected forms: landmarks for salient cues,
route knowledge for movement trajectories, and survey
knowledge for map-like representations. While recent advances in multi-modal
large language models (MLLMs) have enabled visual-language reasoning in
embodied agents, these efforts lack structured spatial memory and instead
operate reactively, limiting their generalization and adaptability in complex
real-world environments. Here we present Brain-inspired Spatial Cognition for
Navigation (BSC-Nav), a unified framework for constructing and leveraging
structured spatial memory in embodied agents. BSC-Nav builds allocentric
cognitive maps from egocentric trajectories and contextual cues, and
dynamically retrieves spatial knowledge aligned with semantic goals. Integrated
with powerful MLLMs, BSC-Nav achieves state-of-the-art efficacy and efficiency
across diverse navigation tasks, demonstrates strong zero-shot generalization,
and supports versatile embodied behaviors in the real physical world, offering
a scalable and biologically grounded path toward general-purpose spatial
intelligence.