ChatPaper.aiChatPaper

ヒューマノイドにおける視覚ベースの器用な操作のためのSim-to-Real強化学習

Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids

February 27, 2025
著者: Toru Lin, Kartik Sachdev, Linxi Fan, Jitendra Malik, Yuke Zhu
cs.AI

要旨

強化学習は、多様な問題領域において人間レベル、あるいはそれを超える能力を達成する上で有望な結果をもたらしてきましたが、器用なロボット操作における成功は依然として限られています。本研究では、ヒューマノイド形態における接触の多い操作タスクの集合を解決するために強化学習を適用する際の主要な課題を調査します。私たちは、特定された課題を克服するための新たな技術を導入し、その有効性を実験的に検証します。主な貢献として、シミュレーション環境を現実世界に近づける自動化された実世界-シミュレーション調整モジュール、長期的で接触の多い操作タスクにおける報酬設計を簡素化する汎用的な報酬設計スキーム、シミュレーションから実世界への性能を維持しつつ困難な探索問題のサンプル効率を向上させる分割統合蒸留プロセス、そしてシミュレーションから実世界への知覚ギャップを埋めるための疎密混合オブジェクト表現を提案します。私たちは、3つのヒューマノイド器用操作タスクにおいて有望な結果を示し、各技術に関するアブレーション研究を行いました。本研究は、人間のデモンストレーションを必要とせずに、シミュレーションから実世界への強化学習を用いてヒューマノイドの器用操作を学習する成功したアプローチを提示し、堅牢な汎化と高い性能を達成しています。
English
Reinforcement learning has delivered promising results in achieving human- or even superhuman-level capabilities across diverse problem domains, but success in dexterous robot manipulation remains limited. This work investigates the key challenges in applying reinforcement learning to solve a collection of contact-rich manipulation tasks on a humanoid embodiment. We introduce novel techniques to overcome the identified challenges with empirical validation. Our main contributions include an automated real-to-sim tuning module that brings the simulated environment closer to the real world, a generalized reward design scheme that simplifies reward engineering for long-horizon contact-rich manipulation tasks, a divide-and-conquer distillation process that improves the sample efficiency of hard-exploration problems while maintaining sim-to-real performance, and a mixture of sparse and dense object representations to bridge the sim-to-real perception gap. We show promising results on three humanoid dexterous manipulation tasks, with ablation studies on each technique. Our work presents a successful approach to learning humanoid dexterous manipulation using sim-to-real reinforcement learning, achieving robust generalization and high performance without the need for human demonstration.

Summary

AI-Generated Summary

PDF162March 3, 2025