ChatPaper.aiChatPaper

De réactif à cognitif : intelligence spatiale inspirée du cerveau pour agents incarnés

From reactive to cognitive: brain-inspired spatial intelligence for embodied agents

August 24, 2025
papers.authors: Shouwei Ruan, Liyuan Wang, Caixin Kang, Qihui Zhu, Songming Liu, Xingxing Wei, Hang Su
cs.AI

papers.abstract

La cognition spatiale permet un comportement adaptatif orienté vers un but en construisant des modèles internes de l'espace. Les systèmes biologiques robustes consolident la connaissance spatiale en trois formes interconnectées : les repères pour les indices saillants, la connaissance des itinéraires pour les trajectoires de mouvement, et la connaissance topographique pour les représentations cartographiques. Bien que les récents progrès des modèles de langage multi-modaux (MLLMs) aient permis le raisonnement visuo-linguistique chez les agents incarnés, ces efforts manquent de mémoire spatiale structurée et fonctionnent de manière réactive, limitant leur généralisation et adaptabilité dans des environnements réels complexes. Nous présentons ici la Cognition Spatiale Inspirée du Cerveau pour la Navigation (BSC-Nav), un cadre unifié pour construire et exploiter une mémoire spatiale structurée chez les agents incarnés. BSC-Nav construit des cartes cognitives allocentriques à partir de trajectoires égocentriques et d'indices contextuels, et récupère dynamiquement des connaissances spatiales alignées avec des objectifs sémantiques. Intégré à des MLLMs puissants, BSC-Nav atteint une efficacité et une efficience de pointe dans diverses tâches de navigation, démontre une forte généralisation en zero-shot, et soutient des comportements incarnés polyvalents dans le monde physique réel, offrant une voie évolutive et biologiquement fondée vers une intelligence spatiale à usage général.
English
Spatial cognition enables adaptive goal-directed behavior by constructing internal models of space. Robust biological systems consolidate spatial knowledge into three interconnected forms: landmarks for salient cues, route knowledge for movement trajectories, and survey knowledge for map-like representations. While recent advances in multi-modal large language models (MLLMs) have enabled visual-language reasoning in embodied agents, these efforts lack structured spatial memory and instead operate reactively, limiting their generalization and adaptability in complex real-world environments. Here we present Brain-inspired Spatial Cognition for Navigation (BSC-Nav), a unified framework for constructing and leveraging structured spatial memory in embodied agents. BSC-Nav builds allocentric cognitive maps from egocentric trajectories and contextual cues, and dynamically retrieves spatial knowledge aligned with semantic goals. Integrated with powerful MLLMs, BSC-Nav achieves state-of-the-art efficacy and efficiency across diverse navigation tasks, demonstrates strong zero-shot generalization, and supports versatile embodied behaviors in the real physical world, offering a scalable and biologically grounded path toward general-purpose spatial intelligence.
PDF62September 2, 2025