クロス・エニシング:複雑な地形における汎用四足歩行ロボットのナビゲーション
Cross Anything: General Quadruped Robot Navigation through Complex Terrains
July 23, 2024
著者: Shaoting Zhu, Derun Li, Yong Liu, Ningyi Xu, Hang Zhao
cs.AI
要旨
視覚言語モデル(VLM)の応用は、さまざまなロボティクスタスクで印象的な成功を収めてきたが、四足歩行ロボットのナビゲーションにおける基盤モデルの探索はほとんど行われていない。本論文では、Cross Anything System(CAS)を紹介する。これは、高レベルの推論モジュールと低レベルの制御ポリシーで構成される革新的なシステムであり、ロボットが複雑な3D地形を横断し、目標位置に到達することを可能にする。高レベルの推論とモーションプランニングにおいては、VLMを活用した新しいアルゴリズムシステムを提案し、タスク分解と閉ループサブタスク実行メカニズムを設計した。低レベルの移動制御においては、確率アニーリング選択(PAS)法を用いて、強化学習により制御ポリシーを訓練した。多数の実験により、本システムが複雑な3D地形を正確かつ堅牢にナビゲートできることが示され、その強力な汎化能力により、多様な屋内・屋外シナリオや地形での応用が保証される。プロジェクトページ: https://cross-anything.github.io/
English
The application of vision-language models (VLMs) has achieved impressive
success in various robotics tasks, but there are few explorations for
foundation models used in quadruped robot navigation. We introduce Cross
Anything System (CAS), an innovative system composed of a high-level reasoning
module and a low-level control policy, enabling the robot to navigate across
complex 3D terrains and reach the goal position. For high-level reasoning and
motion planning, we propose a novel algorithmic system taking advantage of a
VLM, with a design of task decomposition and a closed-loop sub-task execution
mechanism. For low-level locomotion control, we utilize the Probability
Annealing Selection (PAS) method to train a control policy by reinforcement
learning. Numerous experiments show that our whole system can accurately and
robustly navigate across complex 3D terrains, and its strong generalization
ability ensures the applications in diverse indoor and outdoor scenarios and
terrains. Project page: https://cross-anything.github.io/Summary
AI-Generated Summary