ABot-N0: Relazione Tecnica sul Modello Base VLA per la Navigazione Embodied Versatile

Abstract

La navigazione embodied è stata a lungo frammentata da architetture specifiche per singoli compiti. Presentiamo ABot-N0, un modello foundation unificato Visione-Linguaggio-Azione (VLA) che realizza una "Grande Unificazione" su 5 compiti fondamentali: Point-Goal, Object-Goal, Instruction-Following, POI-Goal e Person-Following. ABot-N0 utilizza un'architettura gerarchica "Cervello-Azione", accoppiando un Cervello Cognitivo basato su LLM per il ragionamento semantico con un Esperto d'Azione basato su Flow Matching per la generazione di traiettorie precise e continue. Per supportare l'apprendimento su larga scala, abbiamo sviluppato il Motore dei Dati ABot-N0, curando 16,9 milioni di traiettorie esperte e 5,0 milioni di campioni di ragionamento in 7.802 scene 3D ad alta fedeltà (10,7 km²). ABot-N0 raggiunge nuove prestazioni state-of-the-art su 7 benchmark, superando significativamente i modelli specializzati. Inoltre, il nostro Sistema di Navigazione Agente integra un pianificatore con memoria topologica gerarchica, abilitando missioni robuste e a lungo termine in ambienti real-world dinamici.

English

Embodied navigation has long been fragmented by task-specific architectures. We introduce ABot-N0, a unified Vision-Language-Action (VLA) foundation model that achieves a ``Grand Unification'' across 5 core tasks: Point-Goal, Object-Goal, Instruction-Following, POI-Goal, and Person-Following. ABot-N0 utilizes a hierarchical ``Brain-Action'' architecture, pairing an LLM-based Cognitive Brain for semantic reasoning with a Flow Matching-based Action Expert for precise, continuous trajectory generation. To support large-scale learning, we developed the ABot-N0 Data Engine, curating 16.9M expert trajectories and 5.0M reasoning samples across 7,802 high-fidelity 3D scenes (10.7 km^2). ABot-N0 achieves new SOTA performance across 7 benchmarks, significantly outperforming specialized models. Furthermore, our Agentic Navigation System integrates a planner with hierarchical topological memory, enabling robust, long-horizon missions in dynamic real-world environments.

ABot-N0: Relazione Tecnica sul Modello Base VLA per la Navigazione Embodied Versatile

ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation

Abstract

Support