Van reactief naar cognitief: ruimtelijke intelligentie geïnspireerd door de hersenen voor belichaamde agenten
From reactive to cognitive: brain-inspired spatial intelligence for embodied agents
August 24, 2025
Auteurs: Shouwei Ruan, Liyuan Wang, Caixin Kang, Qihui Zhu, Songming Liu, Xingxing Wei, Hang Su
cs.AI
Samenvatting
Ruimtelijke cognitie maakt adaptief doelgericht gedrag mogelijk door het construeren van interne modellen van ruimte. Robuuste biologische systemen consolideren ruimtelijke kennis in drie onderling verbonden vormen: oriëntatiepunten voor opvallende signalen, routekennis voor bewegingsbanen en overzichtskennis voor kaartachtige representaties. Hoewel recente vooruitgang in multi-modale grote taalmodellen (MLLMs) visueel-taalkundig redeneren in belichaamde agents heeft mogelijk gemaakt, ontbreekt het deze inspanningen aan gestructureerd ruimtelijk geheugen en werken ze reactief, wat hun generalisatie en aanpassingsvermogen in complexe real-world omgevingen beperkt. Hier presenteren we Brain-inspired Spatial Cognition for Navigation (BSC-Nav), een uniform raamwerk voor het construeren en benutten van gestructureerd ruimtelijk geheugen in belichaamde agents. BSC-Nav bouwt allocentrische cognitieve kaarten op basis van egocentrische trajecten en contextuele signalen, en haalt dynamisch ruimtelijke kennis op die is afgestemd op semantische doelen. Geïntegreerd met krachtige MLLMs bereikt BSC-Nav state-of-the-art effectiviteit en efficiëntie in diverse navigatietaken, toont sterke zero-shot generalisatie en ondersteunt veelzijdig belichaamd gedrag in de echte fysieke wereld, wat een schaalbare en biologisch onderbouwde weg biedt naar algemene ruimtelijke intelligentie.
English
Spatial cognition enables adaptive goal-directed behavior by constructing
internal models of space. Robust biological systems consolidate spatial
knowledge into three interconnected forms: landmarks for salient cues,
route knowledge for movement trajectories, and survey
knowledge for map-like representations. While recent advances in multi-modal
large language models (MLLMs) have enabled visual-language reasoning in
embodied agents, these efforts lack structured spatial memory and instead
operate reactively, limiting their generalization and adaptability in complex
real-world environments. Here we present Brain-inspired Spatial Cognition for
Navigation (BSC-Nav), a unified framework for constructing and leveraging
structured spatial memory in embodied agents. BSC-Nav builds allocentric
cognitive maps from egocentric trajectories and contextual cues, and
dynamically retrieves spatial knowledge aligned with semantic goals. Integrated
with powerful MLLMs, BSC-Nav achieves state-of-the-art efficacy and efficiency
across diverse navigation tasks, demonstrates strong zero-shot generalization,
and supports versatile embodied behaviors in the real physical world, offering
a scalable and biologically grounded path toward general-purpose spatial
intelligence.