ChatPaper.aiChatPaper

Van reactief naar cognitief: ruimtelijke intelligentie geïnspireerd door de hersenen voor belichaamde agenten

From reactive to cognitive: brain-inspired spatial intelligence for embodied agents

August 24, 2025
Auteurs: Shouwei Ruan, Liyuan Wang, Caixin Kang, Qihui Zhu, Songming Liu, Xingxing Wei, Hang Su
cs.AI

Samenvatting

Ruimtelijke cognitie maakt adaptief doelgericht gedrag mogelijk door het construeren van interne modellen van ruimte. Robuuste biologische systemen consolideren ruimtelijke kennis in drie onderling verbonden vormen: oriëntatiepunten voor opvallende signalen, routekennis voor bewegingsbanen en overzichtskennis voor kaartachtige representaties. Hoewel recente vooruitgang in multi-modale grote taalmodellen (MLLMs) visueel-taalkundig redeneren in belichaamde agents heeft mogelijk gemaakt, ontbreekt het deze inspanningen aan gestructureerd ruimtelijk geheugen en werken ze reactief, wat hun generalisatie en aanpassingsvermogen in complexe real-world omgevingen beperkt. Hier presenteren we Brain-inspired Spatial Cognition for Navigation (BSC-Nav), een uniform raamwerk voor het construeren en benutten van gestructureerd ruimtelijk geheugen in belichaamde agents. BSC-Nav bouwt allocentrische cognitieve kaarten op basis van egocentrische trajecten en contextuele signalen, en haalt dynamisch ruimtelijke kennis op die is afgestemd op semantische doelen. Geïntegreerd met krachtige MLLMs bereikt BSC-Nav state-of-the-art effectiviteit en efficiëntie in diverse navigatietaken, toont sterke zero-shot generalisatie en ondersteunt veelzijdig belichaamd gedrag in de echte fysieke wereld, wat een schaalbare en biologisch onderbouwde weg biedt naar algemene ruimtelijke intelligentie.
English
Spatial cognition enables adaptive goal-directed behavior by constructing internal models of space. Robust biological systems consolidate spatial knowledge into three interconnected forms: landmarks for salient cues, route knowledge for movement trajectories, and survey knowledge for map-like representations. While recent advances in multi-modal large language models (MLLMs) have enabled visual-language reasoning in embodied agents, these efforts lack structured spatial memory and instead operate reactively, limiting their generalization and adaptability in complex real-world environments. Here we present Brain-inspired Spatial Cognition for Navigation (BSC-Nav), a unified framework for constructing and leveraging structured spatial memory in embodied agents. BSC-Nav builds allocentric cognitive maps from egocentric trajectories and contextual cues, and dynamically retrieves spatial knowledge aligned with semantic goals. Integrated with powerful MLLMs, BSC-Nav achieves state-of-the-art efficacy and efficiency across diverse navigation tasks, demonstrates strong zero-shot generalization, and supports versatile embodied behaviors in the real physical world, offering a scalable and biologically grounded path toward general-purpose spatial intelligence.
PDF92September 2, 2025