RLDG: 強化学習を通じたロボット汎用ポリシー蒸留
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning
December 13, 2024
著者: Charles Xu, Qiyang Li, Jianlan Luo, Sergey Levine
cs.AI
要旨
最近のロボット基盤モデルの進歩により、多様なタスクに適応できる汎用ポリシーの開発が可能となりました。これらのモデルは柔軟性に優れていますが、その性能は訓練データの質に大きく依存しています。本研究では、Reinforcement Learning Distilled Generalists(RLDG)という手法を提案し、強化学習を活用して汎用ポリシーの微調整のための高品質な訓練データを生成します。コネクタ挿入や組み立てなどの精密な操作タスクについての実世界での幅広い実験を通じて、RL生成データで訓練された汎用ポリシーが、人間のデモンストレーションで訓練されたものよりも一貫して優れた性能を発揮し、成功率が最大40%向上し、新しいタスクにもより良く一般化することを示します。また、最適化されたアクション分布と改善された状態カバレッジの両方から性能向上が生じていることを明らかにする詳細な分析も提供します。我々の結果は、タスク固有の強化学習と汎用ポリシーの蒸留を組み合わせることが、柔軟性を維持しながら専門コントローラの性能を達成するより能力の高い効率的なロボット操作システムの開発に有望なアプローチであることを示唆しています。ビデオやコードは、弊社のプロジェクトウェブサイトhttps://generalist-distillation.github.io で入手できます。
English
Recent advances in robotic foundation models have enabled the development of
generalist policies that can adapt to diverse tasks. While these models show
impressive flexibility, their performance heavily depends on the quality of
their training data. In this work, we propose Reinforcement Learning Distilled
Generalists (RLDG), a method that leverages reinforcement learning to generate
high-quality training data for finetuning generalist policies. Through
extensive real-world experiments on precise manipulation tasks like connector
insertion and assembly, we demonstrate that generalist policies trained with
RL-generated data consistently outperform those trained with human
demonstrations, achieving up to 40% higher success rates while generalizing
better to new tasks. We also provide a detailed analysis that reveals this
performance gain stems from both optimized action distributions and improved
state coverage. Our results suggest that combining task-specific RL with
generalist policy distillation offers a promising approach for developing more
capable and efficient robotic manipulation systems that maintain the
flexibility of foundation models while achieving the performance of specialized
controllers. Videos and code can be found on our project website
https://generalist-distillation.github.ioSummary
AI-Generated Summary