De reactivo a cognitivo: inteligencia espacial inspirada en el cerebro para agentes corporizados
From reactive to cognitive: brain-inspired spatial intelligence for embodied agents
August 24, 2025
Autores: Shouwei Ruan, Liyuan Wang, Caixin Kang, Qihui Zhu, Songming Liu, Xingxing Wei, Hang Su
cs.AI
Resumen
La cognición espacial permite comportamientos adaptativos orientados a objetivos mediante la construcción de modelos internos del espacio. Los sistemas biológicos robustos consolidan el conocimiento espacial en tres formas interconectadas: puntos de referencia para señales destacadas, conocimiento de rutas para trayectorias de movimiento y conocimiento de mapas para representaciones similares a mapas. Si bien los avances recientes en modelos de lenguaje multimodal (MLLMs) han permitido el razonamiento visual-lingüístico en agentes corporizados, estos esfuerzos carecen de memoria espacial estructurada y, en cambio, operan de manera reactiva, lo que limita su generalización y adaptabilidad en entornos complejos del mundo real. Aquí presentamos Brain-inspired Spatial Cognition for Navigation (BSC-Nav), un marco unificado para construir y aprovechar la memoria espacial estructurada en agentes corporizados. BSC-Nav construye mapas cognitivos alocéntricos a partir de trayectorias egocéntricas y señales contextuales, y recupera dinámicamente el conocimiento espacial alineado con objetivos semánticos. Integrado con potentes MLLMs, BSC-Nav logra una eficacia y eficiencia de vanguardia en diversas tareas de navegación, demuestra una fuerte generalización en escenarios de cero disparos y respalda comportamientos corporizados versátiles en el mundo físico real, ofreciendo un camino escalable y biológicamente fundamentado hacia la inteligencia espacial de propósito general.
English
Spatial cognition enables adaptive goal-directed behavior by constructing
internal models of space. Robust biological systems consolidate spatial
knowledge into three interconnected forms: landmarks for salient cues,
route knowledge for movement trajectories, and survey
knowledge for map-like representations. While recent advances in multi-modal
large language models (MLLMs) have enabled visual-language reasoning in
embodied agents, these efforts lack structured spatial memory and instead
operate reactively, limiting their generalization and adaptability in complex
real-world environments. Here we present Brain-inspired Spatial Cognition for
Navigation (BSC-Nav), a unified framework for constructing and leveraging
structured spatial memory in embodied agents. BSC-Nav builds allocentric
cognitive maps from egocentric trajectories and contextual cues, and
dynamically retrieves spatial knowledge aligned with semantic goals. Integrated
with powerful MLLMs, BSC-Nav achieves state-of-the-art efficacy and efficiency
across diverse navigation tasks, demonstrates strong zero-shot generalization,
and supports versatile embodied behaviors in the real physical world, offering
a scalable and biologically grounded path toward general-purpose spatial
intelligence.