ChatPaper.aiChatPaper

От реактивного к когнитивному: пространственный интеллект, вдохновленный мозгом, для воплощенных агентов

From reactive to cognitive: brain-inspired spatial intelligence for embodied agents

August 24, 2025
Авторы: Shouwei Ruan, Liyuan Wang, Caixin Kang, Qihui Zhu, Songming Liu, Xingxing Wei, Hang Su
cs.AI

Аннотация

Пространственное познание обеспечивает адаптивное целенаправленное поведение за счет построения внутренних моделей пространства. Надежные биологические системы консолидируют пространственные знания в трех взаимосвязанных формах: ориентиры для значимых сигналов, маршрутные знания для траекторий движения и обзорные знания для картоподобных представлений. Хотя последние достижения в области мультимодальных больших языковых моделей (MLLMs) позволили воплощенным агентам осуществлять визуально-языковое рассуждение, эти подходы лишены структурированной пространственной памяти и работают реактивно, что ограничивает их обобщаемость и адаптируемость в сложных реальных условиях. В данной работе мы представляем Brain-inspired Spatial Cognition for Navigation (BSC-Nav), унифицированную структуру для создания и использования структурированной пространственной памяти в воплощенных агентах. BSC-Nav строит аллоцентрические когнитивные карты на основе эгоцентрических траекторий и контекстных сигналов, а также динамически извлекает пространственные знания, соответствующие семантическим целям. Интегрированный с мощными MLLMs, BSC-Nav демонстрирует наивысшую эффективность и производительность в разнообразных задачах навигации, показывает сильную способность к обобщению в условиях нулевого обучения и поддерживает универсальные воплощенные поведения в реальном физическом мире, предлагая масштабируемый и биологически обоснованный путь к универсальному пространственному интеллекту.
English
Spatial cognition enables adaptive goal-directed behavior by constructing internal models of space. Robust biological systems consolidate spatial knowledge into three interconnected forms: landmarks for salient cues, route knowledge for movement trajectories, and survey knowledge for map-like representations. While recent advances in multi-modal large language models (MLLMs) have enabled visual-language reasoning in embodied agents, these efforts lack structured spatial memory and instead operate reactively, limiting their generalization and adaptability in complex real-world environments. Here we present Brain-inspired Spatial Cognition for Navigation (BSC-Nav), a unified framework for constructing and leveraging structured spatial memory in embodied agents. BSC-Nav builds allocentric cognitive maps from egocentric trajectories and contextual cues, and dynamically retrieves spatial knowledge aligned with semantic goals. Integrated with powerful MLLMs, BSC-Nav achieves state-of-the-art efficacy and efficiency across diverse navigation tasks, demonstrates strong zero-shot generalization, and supports versatile embodied behaviors in the real physical world, offering a scalable and biologically grounded path toward general-purpose spatial intelligence.
PDF62September 2, 2025