ChatPaper.aiChatPaper

Von reaktiv zu kognitiv: Gehirninspirierte räumliche Intelligenz für verkörperte Agenten

From reactive to cognitive: brain-inspired spatial intelligence for embodied agents

August 24, 2025
papers.authors: Shouwei Ruan, Liyuan Wang, Caixin Kang, Qihui Zhu, Songming Liu, Xingxing Wei, Hang Su
cs.AI

papers.abstract

Räumliche Kognition ermöglicht adaptives zielgerichtetes Verhalten durch die Konstruktion interner Modelle des Raums. Robuste biologische Systeme konsolidieren räumliches Wissen in drei miteinander verbundenen Formen: Landmarken für auffällige Hinweise, Routenwissen für Bewegungsbahnen und Überblickswissen für kartenähnliche Darstellungen. Während jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) visuell-sprachliches Denken in verkörperten Agenten ermöglicht haben, fehlt diesen Ansätzen strukturiertes räumliches Gedächtnis, und sie agieren stattdessen reaktiv, was ihre Generalisierungsfähigkeit und Anpassungsfähigkeit in komplexen realen Umgebungen einschränkt. Hier präsentieren wir Brain-inspired Spatial Cognition for Navigation (BSC-Nav), ein einheitliches Framework zur Konstruktion und Nutzung strukturierten räumlichen Gedächtnisses in verkörperten Agenten. BSC-Nav erstellt allozentrische kognitive Karten aus egozentrischen Trajektorien und kontextuellen Hinweisen und ruft dynamisch räumliches Wissen ab, das mit semantischen Zielen abgestimmt ist. In Kombination mit leistungsstarken MLLMs erreicht BSC-Nav state-of-the-art Effizienz und Effektivität in verschiedenen Navigationsaufgaben, zeigt starke Zero-Shot-Generalisierung und unterstützt vielseitige verkörperte Verhaltensweisen in der realen physischen Welt, was einen skalierbaren und biologisch fundierten Weg zur allgemeinen räumlichen Intelligenz bietet.
English
Spatial cognition enables adaptive goal-directed behavior by constructing internal models of space. Robust biological systems consolidate spatial knowledge into three interconnected forms: landmarks for salient cues, route knowledge for movement trajectories, and survey knowledge for map-like representations. While recent advances in multi-modal large language models (MLLMs) have enabled visual-language reasoning in embodied agents, these efforts lack structured spatial memory and instead operate reactively, limiting their generalization and adaptability in complex real-world environments. Here we present Brain-inspired Spatial Cognition for Navigation (BSC-Nav), a unified framework for constructing and leveraging structured spatial memory in embodied agents. BSC-Nav builds allocentric cognitive maps from egocentric trajectories and contextual cues, and dynamically retrieves spatial knowledge aligned with semantic goals. Integrated with powerful MLLMs, BSC-Nav achieves state-of-the-art efficacy and efficiency across diverse navigation tasks, demonstrates strong zero-shot generalization, and supports versatile embodied behaviors in the real physical world, offering a scalable and biologically grounded path toward general-purpose spatial intelligence.
PDF62September 2, 2025