제로샷 시뮬레이션-실제 로봇 학습: 반응적 잡기에 관한 손재주 조작 연구
Zero-Shot Sim-to-Real Robot Learning: A Dexterous Manipulation Study on Reactive Catching
May 10, 2026
저자: Kejia Ren, Gaotian Wang, Andrew S. Morgan, Kaiyu Hang
cs.AI
초록
정밀 조작은 물리적 연산이 많이 필요하고 모델링 오류와 인식 노이즈에 매우 민감하여, 시뮬레이션-실제 환경 전환(sim-to-real transfer)이 매우 어렵다. 도메인 무작위화(DR)는 이러한 작업을 위해 학습된 정책의 강건성을 향상시키는 데 흔히 사용되지만, 기존 DR은 에피소드당 하나의 인스턴스만 무작위화하여 실제 환경 역학의 변동성에 대한 노출이 매우 제한적이다. 이에 대해 우리는 도메인 무작위화 인스턴스 집합(DRIS)을 제안한다. DRIS는 무작위화된 인스턴스 집합을 동시에 표현하고 전파하여 불확실한 역학에 대한 더 풍부한 근사치를 제공하고, 정책이 여러 가능한 결과를 고려한 행동을 학습할 수 있도록 한다. 이론적 분석을 바탕으로, DRIS가 소수의 인스턴스(예: 10개)로도 더 강건한 정책을 생성하고 실제 환경 미세 조정의 필요성을 완화함을 보여준다. 우리는 이를 까다로운 반응형 잡기 작업에서 입증한다. 전통적인 잡기 설정이 물체를 기계적으로 안정화하도록 설계된 엔드 이펙터(예: 곡면 또는 둘러싸는 표면)를 사용하는 것과 달리, 우리 시스템은 수동 안정화 기능이 없는 평평한 판을 사용하여 작업이 노이즈에 매우 민감하고 빠른 반응 동작을 필요로 한다. 학습된 정책은 불확실성에 대한 강력한 강건성을 보여주며 신뢰할 수 있는 제로샷 시뮬레이션-실제 환경 전환을 달성한다.
English
Dexterous manipulation is physics-intensive and highly sensitive to modeling errors and perception noise, making sim-to-real transfer prohibitively challenging. Domain randomization (DR) is commonly used to improve the robustness of learned policies for such tasks, but conventional DR randomizes one instance per episode, offering very limited exposure to the variability of real-world dynamics. To this end, we propose Domain-Randomized Instance Set (DRIS), which represents and propagates a set of randomized instances simultaneously, providing richer approximation of uncertain dynamics and enabling policies to learn actions that account for multiple possible outcomes. Supported by theoretical analysis, we show that DRIS yields more robust policies and alleviates the need for real-world fine-tuning, even with a modest number of instances (e.g., 10). We demonstrate this on a challenging reactive catching task. Unlike traditional catching setups that use end-effectors designed to mechanically stabilize the object (e.g., curved or enclosing surfaces), our system uses a flat plate that offers no passive stabilization, making the task highly sensitive to noise and requiring rapid reactive motions. The learned policies exhibit strong robustness to uncertainties and achieve reliable zero-shot sim-to-real transfer.