ChatPaper.aiChatPaper

Astra: К универсальным мобильным роботам через иерархическое мультимодальное обучение

Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning

June 6, 2025
Авторы: Sheng Chen, Peiyu He, Jiaxin Hu, Ziyang Liu, Yansheng Wang, Tao Xu, Chi Zhang, Chongchong Zhang, Chao An, Shiyu Cai, Duo Cao, Kangping Chen, Shuai Chu, Tianwei Chu, Mingdi Dan, Min Du, Weiwei Fang, Pengyou Fu, Junkai Hu, Xiaowei Jiang, Zhaodi Jiang, Fuxuan Li, Jun Li, Minghui Li, Mingyao Li, Yanchang Li, Zhibin Li, Guangming Liu, Kairui Liu, Lihao Liu, Weizhi Liu, Xiaoshun Liu, Yufei Liu, Yunfei Liu, Qiang Lu, Yuanfei Luo, Xiang Lv, Hongying Ma, Sai Ma, Lingxian Mi, Sha Sa, Hongxiang Shu, Lei Tian, Chengzhi Wang, Jiayu Wang, Kaijie Wang, Qingyi Wang, Renwen Wang, Tao Wang, Wei Wang, Xirui Wang, Chao Wei, Xuguang Wei, Zijun Xia, Zhaohao Xiao, Tingshuai Yan, Liyan Yang, Yifan Yang, Zhikai Yang, Zhong Yin, Li Yuan, Liuchun Yuan, Chi Zhang, Jinyang Zhang, Junhui Zhang, Linge Zhang, Zhenyi Zhang, Zheyu Zhang, Dongjie Zhu, Hang Li, Yangang Zhang
cs.AI

Аннотация

Современные системы навигации роботов сталкиваются с трудностями в разнообразных и сложных внутренних средах. Традиционные подходы опираются на множество модулей с небольшими моделями или системы, основанные на правилах, что ограничивает их адаптируемость к новым условиям. Для решения этой проблемы мы разработали Astra — комплексную архитектуру с двумя моделями, Astra-Global и Astra-Local, для навигации мобильных роботов. Astra-Global, мультимодальная крупная языковая модель (LLM), обрабатывает визуальные и языковые входные данные для выполнения локализации робота и цели, используя гибридный тополого-семантический граф в качестве глобальной карты, и превосходит традиционные методы визуального распознавания мест. Astra-Local, многозадачная сеть, отвечает за локальное планирование пути и оценку одометрии. Её 4D пространственно-временной кодировщик, обученный с использованием самоконтролируемого обучения, генерирует устойчивые 4D-признаки для последующих задач. Блок планирования использует сопоставление потоков и новую функцию потерь на основе маскированного ESDF для минимизации риска столкновений при генерации локальных траекторий, а блок одометрии интегрирует входные данные от нескольких датчиков через трансформерный кодировщик для предсказания относительного положения робота. Развернутая на реальных мобильных роботах внутри помещений, Astra демонстрирует высокую успешность выполнения задач от начала до конца в различных внутренних средах.
English
Modern robot navigation systems encounter difficulties in diverse and complex indoor environments. Traditional approaches rely on multiple modules with small models or rule-based systems and thus lack adaptability to new environments. To address this, we developed Astra, a comprehensive dual-model architecture, Astra-Global and Astra-Local, for mobile robot navigation. Astra-Global, a multimodal LLM, processes vision and language inputs to perform self and goal localization using a hybrid topological-semantic graph as the global map, and outperforms traditional visual place recognition methods. Astra-Local, a multitask network, handles local path planning and odometry estimation. Its 4D spatial-temporal encoder, trained through self-supervised learning, generates robust 4D features for downstream tasks. The planning head utilizes flow matching and a novel masked ESDF loss to minimize collision risks for generating local trajectories, and the odometry head integrates multi-sensor inputs via a transformer encoder to predict the relative pose of the robot. Deployed on real in-house mobile robots, Astra achieves high end-to-end mission success rate across diverse indoor environments.
PDF272June 10, 2025