Astra : Vers des robots mobiles polyvalents grâce à un apprentissage multimodal hiérarchique
Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning
June 6, 2025
Auteurs: Sheng Chen, Peiyu He, Jiaxin Hu, Ziyang Liu, Yansheng Wang, Tao Xu, Chi Zhang, Chongchong Zhang, Chao An, Shiyu Cai, Duo Cao, Kangping Chen, Shuai Chu, Tianwei Chu, Mingdi Dan, Min Du, Weiwei Fang, Pengyou Fu, Junkai Hu, Xiaowei Jiang, Zhaodi Jiang, Fuxuan Li, Jun Li, Minghui Li, Mingyao Li, Yanchang Li, Zhibin Li, Guangming Liu, Kairui Liu, Lihao Liu, Weizhi Liu, Xiaoshun Liu, Yufei Liu, Yunfei Liu, Qiang Lu, Yuanfei Luo, Xiang Lv, Hongying Ma, Sai Ma, Lingxian Mi, Sha Sa, Hongxiang Shu, Lei Tian, Chengzhi Wang, Jiayu Wang, Kaijie Wang, Qingyi Wang, Renwen Wang, Tao Wang, Wei Wang, Xirui Wang, Chao Wei, Xuguang Wei, Zijun Xia, Zhaohao Xiao, Tingshuai Yan, Liyan Yang, Yifan Yang, Zhikai Yang, Zhong Yin, Li Yuan, Liuchun Yuan, Chi Zhang, Jinyang Zhang, Junhui Zhang, Linge Zhang, Zhenyi Zhang, Zheyu Zhang, Dongjie Zhu, Hang Li, Yangang Zhang
cs.AI
Résumé
Les systèmes modernes de navigation robotique rencontrent des difficultés dans des environnements intérieurs variés et complexes. Les approches traditionnelles reposent sur plusieurs modules utilisant de petits modèles ou des systèmes basés sur des règles, ce qui limite leur adaptabilité à de nouveaux environnements. Pour résoudre ce problème, nous avons développé Astra, une architecture duale complète composée d'Astra-Global et d'Astra-Local, destinée à la navigation des robots mobiles. Astra-Global, un modèle de langage multimodal (LLM), traite les entrées visuelles et linguistiques pour effectuer la localisation de soi et de l'objectif en utilisant un graphe topologico-sémantique hybride comme carte globale, surpassant ainsi les méthodes traditionnelles de reconnaissance de lieux visuels. Astra-Local, un réseau multitâche, gère la planification locale de trajectoires et l'estimation de l'odométrie. Son encodeur spatio-temporel 4D, entraîné par apprentissage auto-supervisé, génère des caractéristiques 4D robustes pour les tâches en aval. Le module de planification utilise l'appariement de flux et une nouvelle fonction de perte ESDF masquée pour minimiser les risques de collision lors de la génération de trajectoires locales, tandis que le module d'odométrie intègre les entrées multi-capteurs via un encodeur transformateur pour prédire la pose relative du robot. Déployé sur des robots mobiles réels en interne, Astra atteint un taux de réussite de mission de bout en bout élevé dans divers environnements intérieurs.
English
Modern robot navigation systems encounter difficulties in diverse and complex
indoor environments. Traditional approaches rely on multiple modules with small
models or rule-based systems and thus lack adaptability to new environments. To
address this, we developed Astra, a comprehensive dual-model architecture,
Astra-Global and Astra-Local, for mobile robot navigation. Astra-Global, a
multimodal LLM, processes vision and language inputs to perform self and goal
localization using a hybrid topological-semantic graph as the global map, and
outperforms traditional visual place recognition methods. Astra-Local, a
multitask network, handles local path planning and odometry estimation. Its 4D
spatial-temporal encoder, trained through self-supervised learning, generates
robust 4D features for downstream tasks. The planning head utilizes flow
matching and a novel masked ESDF loss to minimize collision risks for
generating local trajectories, and the odometry head integrates multi-sensor
inputs via a transformer encoder to predict the relative pose of the robot.
Deployed on real in-house mobile robots, Astra achieves high end-to-end mission
success rate across diverse indoor environments.