Astra:階層型マルチモーダル学習による汎用移動ロボットの実現に向けて
Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning
June 6, 2025
著者: Sheng Chen, Peiyu He, Jiaxin Hu, Ziyang Liu, Yansheng Wang, Tao Xu, Chi Zhang, Chongchong Zhang, Chao An, Shiyu Cai, Duo Cao, Kangping Chen, Shuai Chu, Tianwei Chu, Mingdi Dan, Min Du, Weiwei Fang, Pengyou Fu, Junkai Hu, Xiaowei Jiang, Zhaodi Jiang, Fuxuan Li, Jun Li, Minghui Li, Mingyao Li, Yanchang Li, Zhibin Li, Guangming Liu, Kairui Liu, Lihao Liu, Weizhi Liu, Xiaoshun Liu, Yufei Liu, Yunfei Liu, Qiang Lu, Yuanfei Luo, Xiang Lv, Hongying Ma, Sai Ma, Lingxian Mi, Sha Sa, Hongxiang Shu, Lei Tian, Chengzhi Wang, Jiayu Wang, Kaijie Wang, Qingyi Wang, Renwen Wang, Tao Wang, Wei Wang, Xirui Wang, Chao Wei, Xuguang Wei, Zijun Xia, Zhaohao Xiao, Tingshuai Yan, Liyan Yang, Yifan Yang, Zhikai Yang, Zhong Yin, Li Yuan, Liuchun Yuan, Chi Zhang, Jinyang Zhang, Junhui Zhang, Linge Zhang, Zhenyi Zhang, Zheyu Zhang, Dongjie Zhu, Hang Li, Yangang Zhang
cs.AI
要旨
現代のロボットナビゲーションシステムは、多様で複雑な屋内環境において困難に直面している。従来のアプローチは、小さなモデルやルールベースのシステムを複数のモジュールに依存しており、新しい環境への適応性に欠けている。この問題に対処するため、我々はモバイルロボットナビゲーションのための包括的なデュアルモデルアーキテクチャであるAstraを開発した。Astra-Globalは、マルチモーダルLLMであり、視覚と言語の入力を処理し、ハイブリッドトポロジカル-セマンティックグラフをグローバルマップとして使用して自己位置推定と目標位置推定を行い、従来の視覚的位置認識手法を凌駕する。Astra-Localは、マルチタスクネットワークであり、局所的な経路計画とオドメトリ推定を担当する。自己教師あり学習を通じて訓練された4D時空間エンコーダは、下流タスクのための堅牢な4D特徴を生成する。計画ヘッドは、フローマッチングと新しいマスク付きESDF損失を利用して、局所的な軌道生成における衝突リスクを最小化し、オドメトリヘッドは、トランスフォーマーエンコーダを介してマルチセンサー入力を統合し、ロボットの相対的な姿勢を予測する。実際の屋内モバイルロボットに展開されたAstraは、多様な屋内環境において高いエンドツーエンドのミッション成功率を達成している。
English
Modern robot navigation systems encounter difficulties in diverse and complex
indoor environments. Traditional approaches rely on multiple modules with small
models or rule-based systems and thus lack adaptability to new environments. To
address this, we developed Astra, a comprehensive dual-model architecture,
Astra-Global and Astra-Local, for mobile robot navigation. Astra-Global, a
multimodal LLM, processes vision and language inputs to perform self and goal
localization using a hybrid topological-semantic graph as the global map, and
outperforms traditional visual place recognition methods. Astra-Local, a
multitask network, handles local path planning and odometry estimation. Its 4D
spatial-temporal encoder, trained through self-supervised learning, generates
robust 4D features for downstream tasks. The planning head utilizes flow
matching and a novel masked ESDF loss to minimize collision risks for
generating local trajectories, and the odometry head integrates multi-sensor
inputs via a transformer encoder to predict the relative pose of the robot.
Deployed on real in-house mobile robots, Astra achieves high end-to-end mission
success rate across diverse indoor environments.