ChatPaper.aiChatPaper

휴머노이드를 위한 시각 기반 정밀 조작을 위한 시뮬레이션-실제 강화 학습

Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids

February 27, 2025
저자: Toru Lin, Kartik Sachdev, Linxi Fan, Jitendra Malik, Yuke Zhu
cs.AI

초록

강화 학습은 다양한 문제 영역에서 인간 수준 또는 그 이상의 능력을 달성하는 데 있어 유망한 결과를 보여주었지만, 정교한 로봇 조작 분야에서의 성공은 여전히 제한적입니다. 본 연구는 휴머노이드 구현체에서 접촉이 풍부한 조작 작업 집합을 해결하기 위해 강화 학습을 적용하는 데 있어 주요 과제를 조사합니다. 우리는 실증적 검증을 통해 확인된 과제를 극복하기 위한 새로운 기법들을 소개합니다. 우리의 주요 기여는 시뮬레이션 환경을 실제 세계에 더 가깝게 만드는 자동화된 실세계-시뮬레이션 조정 모듈, 장기간 접촉이 풍부한 조작 작업을 위한 보상 설계를 단순화하는 일반화된 보상 설계 방식, 시뮬레이션-실세계 성능을 유지하면서 어려운 탐색 문제의 샘플 효율성을 개선하는 분할 정복 증류 과정, 그리고 시뮬레이션-실세계 인식 격차를 줄이기 위한 희소 및 밀집 객체 표현의 혼합을 포함합니다. 우리는 세 가지 휴머노이드 정교 조작 작업에서 유망한 결과를 보여주며, 각 기법에 대한 절제 연구를 수행합니다. 본 연구는 인간 시연 없이도 강력한 일반화와 높은 성능을 달성하며, 시뮬레이션-실세계 강화 학습을 사용한 휴머노이드 정교 조작 학습에 대한 성공적인 접근 방식을 제시합니다.
English
Reinforcement learning has delivered promising results in achieving human- or even superhuman-level capabilities across diverse problem domains, but success in dexterous robot manipulation remains limited. This work investigates the key challenges in applying reinforcement learning to solve a collection of contact-rich manipulation tasks on a humanoid embodiment. We introduce novel techniques to overcome the identified challenges with empirical validation. Our main contributions include an automated real-to-sim tuning module that brings the simulated environment closer to the real world, a generalized reward design scheme that simplifies reward engineering for long-horizon contact-rich manipulation tasks, a divide-and-conquer distillation process that improves the sample efficiency of hard-exploration problems while maintaining sim-to-real performance, and a mixture of sparse and dense object representations to bridge the sim-to-real perception gap. We show promising results on three humanoid dexterous manipulation tasks, with ablation studies on each technique. Our work presents a successful approach to learning humanoid dexterous manipulation using sim-to-real reinforcement learning, achieving robust generalization and high performance without the need for human demonstration.

Summary

AI-Generated Summary

PDF162March 3, 2025