ChatPaper.aiChatPaper

Astra: 계층적 다중모달 학습을 통한 범용 모바일 로봇 개발

Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning

June 6, 2025
저자: Sheng Chen, Peiyu He, Jiaxin Hu, Ziyang Liu, Yansheng Wang, Tao Xu, Chi Zhang, Chongchong Zhang, Chao An, Shiyu Cai, Duo Cao, Kangping Chen, Shuai Chu, Tianwei Chu, Mingdi Dan, Min Du, Weiwei Fang, Pengyou Fu, Junkai Hu, Xiaowei Jiang, Zhaodi Jiang, Fuxuan Li, Jun Li, Minghui Li, Mingyao Li, Yanchang Li, Zhibin Li, Guangming Liu, Kairui Liu, Lihao Liu, Weizhi Liu, Xiaoshun Liu, Yufei Liu, Yunfei Liu, Qiang Lu, Yuanfei Luo, Xiang Lv, Hongying Ma, Sai Ma, Lingxian Mi, Sha Sa, Hongxiang Shu, Lei Tian, Chengzhi Wang, Jiayu Wang, Kaijie Wang, Qingyi Wang, Renwen Wang, Tao Wang, Wei Wang, Xirui Wang, Chao Wei, Xuguang Wei, Zijun Xia, Zhaohao Xiao, Tingshuai Yan, Liyan Yang, Yifan Yang, Zhikai Yang, Zhong Yin, Li Yuan, Liuchun Yuan, Chi Zhang, Jinyang Zhang, Junhui Zhang, Linge Zhang, Zhenyi Zhang, Zheyu Zhang, Dongjie Zhu, Hang Li, Yangang Zhang
cs.AI

초록

현대 로봇 내비게이션 시스템은 다양하고 복잡한 실내 환경에서 어려움을 겪고 있다. 전통적인 접근 방식은 작은 모델이나 규칙 기반 시스템을 사용하는 다중 모듈에 의존하므로 새로운 환경에 대한 적응력이 부족하다. 이를 해결하기 위해 우리는 모바일 로봇 내비게이션을 위한 포괄적인 이중 모델 아키텍처인 Astra-Global과 Astra-Local로 구성된 Astra를 개발했다. Astra-Global은 다중 모드 LLM으로, 시각 및 언어 입력을 처리하여 하이브리드 토폴로지-의미 그래프를 전역 지도로 사용하여 자기 및 목표 위치 파악을 수행하며, 기존의 시각적 장소 인식 방법을 능가한다. Astra-Local은 다중 작업 네트워크로, 지역 경로 계획 및 오도메트리 추정을 처리한다. 자기 지도 학습을 통해 훈련된 4D 시공간 인코더는 하류 작업을 위한 강력한 4D 특징을 생성한다. 계획 헤드는 흐름 매칭과 새로운 마스크된 ESDF 손실을 활용하여 지역 궤적 생성을 위한 충돌 위험을 최소화하며, 오도메트리 헤드는 트랜스포머 인코더를 통해 다중 센서 입력을 통합하여 로봇의 상대적 자세를 예측한다. 실제 내부 모바일 로봇에 배포된 Astra는 다양한 실내 환경에서 높은 종단 간 임무 성공률을 달성한다.
English
Modern robot navigation systems encounter difficulties in diverse and complex indoor environments. Traditional approaches rely on multiple modules with small models or rule-based systems and thus lack adaptability to new environments. To address this, we developed Astra, a comprehensive dual-model architecture, Astra-Global and Astra-Local, for mobile robot navigation. Astra-Global, a multimodal LLM, processes vision and language inputs to perform self and goal localization using a hybrid topological-semantic graph as the global map, and outperforms traditional visual place recognition methods. Astra-Local, a multitask network, handles local path planning and odometry estimation. Its 4D spatial-temporal encoder, trained through self-supervised learning, generates robust 4D features for downstream tasks. The planning head utilizes flow matching and a novel masked ESDF loss to minimize collision risks for generating local trajectories, and the odometry head integrates multi-sensor inputs via a transformer encoder to predict the relative pose of the robot. Deployed on real in-house mobile robots, Astra achieves high end-to-end mission success rate across diverse indoor environments.
PDF272June 10, 2025