WildLMa: 野生環境における長期間のロコ・マニピュレーション
WildLMa: Long Horizon Loco-Manipulation in the Wild
November 22, 2024
著者: Ri-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang
cs.AI
要旨
「野生」のモバイル操作は、多様な現実世界の環境にロボットを展開することを目指しており、そのためには、ロボットが(1)オブジェクトの配置に一般化されるスキルを持つこと、(2)多様な環境での長期的なタスク実行が可能であること、および(3)ピックアンドプレースを超えた複雑な操作を行うことが求められます。マニピュレータを持つ四足ロボットは、ワークスペースを拡張し、頑健な移動を可能にする可能性を秘めていますが、既存の結果はそのような能力を調査していません。本論文では、これらの問題に対処するために、次の3つのコンポーネントを持つWildLMaを提案します:(1)VRを介した全身遠隔操作とトラバーサビリティのための学習された低レベルコントローラの適応、(2)WildLMa-Skill -- 模倣学習またはヒューリスティックを通じて獲得された一般化可能な視覚運動スキルのライブラリ、および(3)WildLMa-Planner -- 長期的なタスクのためにLLMプランナーがスキルを調整するための学習されたスキルのインターフェース。我々は、数十のデモンストレーションのみを使用して、既存のRLベースラインよりも高いグラスピング成功率を達成することで、高品質なトレーニングデータの重要性を実証します。WildLMaは、言語条件付き模倣学習のためにCLIPを利用し、訓練デモンストレーションで見られないオブジェクトに経験的に一般化します。包括的な定量評価に加えて、大学の廊下や屋外地形のゴミの片付け、関節付きオブジェクトの操作、本棚のアイテムの再配置など、実用的なロボットアプリケーションを質的に示します。
English
`In-the-wild' mobile manipulation aims to deploy robots in diverse real-world
environments, which requires the robot to (1) have skills that generalize
across object configurations; (2) be capable of long-horizon task execution in
diverse environments; and (3) perform complex manipulation beyond
pick-and-place. Quadruped robots with manipulators hold promise for extending
the workspace and enabling robust locomotion, but existing results do not
investigate such a capability. This paper proposes WildLMa with three
components to address these issues: (1) adaptation of learned low-level
controller for VR-enabled whole-body teleoperation and traversability; (2)
WildLMa-Skill -- a library of generalizable visuomotor skills acquired via
imitation learning or heuristics and (3) WildLMa-Planner -- an interface of
learned skills that allow LLM planners to coordinate skills for long-horizon
tasks. We demonstrate the importance of high-quality training data by achieving
higher grasping success rate over existing RL baselines using only tens of
demonstrations. WildLMa exploits CLIP for language-conditioned imitation
learning that empirically generalizes to objects unseen in training
demonstrations. Besides extensive quantitative evaluation, we qualitatively
demonstrate practical robot applications, such as cleaning up trash in
university hallways or outdoor terrains, operating articulated objects, and
rearranging items on a bookshelf.Summary
AI-Generated Summary