ChatPaper.aiChatPaper

Da reattivo a cognitivo: intelligenza spaziale ispirata al cervello per agenti incarnati

From reactive to cognitive: brain-inspired spatial intelligence for embodied agents

August 24, 2025
Autori: Shouwei Ruan, Liyuan Wang, Caixin Kang, Qihui Zhu, Songming Liu, Xingxing Wei, Hang Su
cs.AI

Abstract

La cognizione spaziale consente comportamenti adattivi orientati agli obiettivi attraverso la costruzione di modelli interni dello spazio. I sistemi biologici robusti consolidano la conoscenza spaziale in tre forme interconnesse: punti di riferimento per segnali salienti, conoscenza del percorso per traiettorie di movimento e conoscenza d'insieme per rappresentazioni simili a mappe. Sebbene i recenti progressi nei modelli linguistici multimodali su larga scala (MLLM) abbiano abilitato il ragionamento visivo-linguistico in agenti incarnati, questi approcci mancano di una memoria spaziale strutturata e operano in modo reattivo, limitando la loro generalizzazione e adattabilità in ambienti complessi del mondo reale. Qui presentiamo Brain-inspired Spatial Cognition for Navigation (BSC-Nav), un framework unificato per costruire e sfruttare una memoria spaziale strutturata in agenti incarnati. BSC-Nav costruisce mappe cognitive allocentriche a partire da traiettorie egocentriche e segnali contestuali, e recupera dinamicamente conoscenza spaziale allineata con obiettivi semantici. Integrato con potenti MLLM, BSC-Nav raggiunge un'efficacia e un'efficienza all'avanguardia in vari compiti di navigazione, dimostra una forte generalizzazione zero-shot e supporta comportamenti incarnati versatili nel mondo fisico reale, offrendo un percorso scalabile e biologicamente fondato verso un'intelligenza spaziale a scopo generale.
English
Spatial cognition enables adaptive goal-directed behavior by constructing internal models of space. Robust biological systems consolidate spatial knowledge into three interconnected forms: landmarks for salient cues, route knowledge for movement trajectories, and survey knowledge for map-like representations. While recent advances in multi-modal large language models (MLLMs) have enabled visual-language reasoning in embodied agents, these efforts lack structured spatial memory and instead operate reactively, limiting their generalization and adaptability in complex real-world environments. Here we present Brain-inspired Spatial Cognition for Navigation (BSC-Nav), a unified framework for constructing and leveraging structured spatial memory in embodied agents. BSC-Nav builds allocentric cognitive maps from egocentric trajectories and contextual cues, and dynamically retrieves spatial knowledge aligned with semantic goals. Integrated with powerful MLLMs, BSC-Nav achieves state-of-the-art efficacy and efficiency across diverse navigation tasks, demonstrates strong zero-shot generalization, and supports versatile embodied behaviors in the real physical world, offering a scalable and biologically grounded path toward general-purpose spatial intelligence.
PDF92September 2, 2025