ChatPaper.aiChatPaper

De reactivo a cognitivo: inteligencia espacial inspirada en el cerebro para agentes corporizados

From reactive to cognitive: brain-inspired spatial intelligence for embodied agents

August 24, 2025
Autores: Shouwei Ruan, Liyuan Wang, Caixin Kang, Qihui Zhu, Songming Liu, Xingxing Wei, Hang Su
cs.AI

Resumen

La cognición espacial permite comportamientos adaptativos orientados a objetivos mediante la construcción de modelos internos del espacio. Los sistemas biológicos robustos consolidan el conocimiento espacial en tres formas interconectadas: puntos de referencia para señales destacadas, conocimiento de rutas para trayectorias de movimiento y conocimiento de mapas para representaciones similares a mapas. Si bien los avances recientes en modelos de lenguaje multimodal (MLLMs) han permitido el razonamiento visual-lingüístico en agentes corporizados, estos esfuerzos carecen de memoria espacial estructurada y, en cambio, operan de manera reactiva, lo que limita su generalización y adaptabilidad en entornos complejos del mundo real. Aquí presentamos Brain-inspired Spatial Cognition for Navigation (BSC-Nav), un marco unificado para construir y aprovechar la memoria espacial estructurada en agentes corporizados. BSC-Nav construye mapas cognitivos alocéntricos a partir de trayectorias egocéntricas y señales contextuales, y recupera dinámicamente el conocimiento espacial alineado con objetivos semánticos. Integrado con potentes MLLMs, BSC-Nav logra una eficacia y eficiencia de vanguardia en diversas tareas de navegación, demuestra una fuerte generalización en escenarios de cero disparos y respalda comportamientos corporizados versátiles en el mundo físico real, ofreciendo un camino escalable y biológicamente fundamentado hacia la inteligencia espacial de propósito general.
English
Spatial cognition enables adaptive goal-directed behavior by constructing internal models of space. Robust biological systems consolidate spatial knowledge into three interconnected forms: landmarks for salient cues, route knowledge for movement trajectories, and survey knowledge for map-like representations. While recent advances in multi-modal large language models (MLLMs) have enabled visual-language reasoning in embodied agents, these efforts lack structured spatial memory and instead operate reactively, limiting their generalization and adaptability in complex real-world environments. Here we present Brain-inspired Spatial Cognition for Navigation (BSC-Nav), a unified framework for constructing and leveraging structured spatial memory in embodied agents. BSC-Nav builds allocentric cognitive maps from egocentric trajectories and contextual cues, and dynamically retrieves spatial knowledge aligned with semantic goals. Integrated with powerful MLLMs, BSC-Nav achieves state-of-the-art efficacy and efficiency across diverse navigation tasks, demonstrates strong zero-shot generalization, and supports versatile embodied behaviors in the real physical world, offering a scalable and biologically grounded path toward general-purpose spatial intelligence.
PDF62September 2, 2025