ChatPaper.aiChatPaper

SkillMimic-V2: 희소하고 노이즈가 있는 시연 데이터로부터 강건하고 일반화 가능한 상호작용 기술 학습

SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations

May 4, 2025
저자: Runyi Yu, Yinhuai Wang, Qihan Zhao, Hok Wai Tsui, Jingbo Wang, Ping Tan, Qifeng Chen
cs.AI

초록

상호작용 시연을 통한 강화 학습(RLID)에서의 근본적인 문제인 시연 노이즈와 커버리지 한계를 해결하고자 한다. 기존 데이터 수집 방법은 유용한 상호작용 시연을 제공하지만, 종종 희소하고 단절된 노이즈가 포함된 궤적을 생성하여 가능한 기술 변형과 전환의 전체 스펙트럼을 포착하지 못한다. 우리의 핵심 통찰은 노이즈가 많고 희소한 시연에도 불구하고, 시연된 기술 간을 자연스럽게 연결하거나 이웃 상태에서 발생하는 무한한 물리적으로 가능한 궤적이 존재하여 가능한 기술 변형과 전환의 연속적인 공간을 형성한다는 것이다. 이 통찰을 바탕으로, 우리는 두 가지 데이터 증강 기법을 제시한다: 시연 기술 간의 잠재적 전환을 발견하는 스티치드 궤적 그래프(STG)와 시연 이웃 내 임의의 상태에 대한 고유한 연결을 설정하는 상태 전환 필드(STF). 증강된 데이터를 활용한 효과적인 RLID를 위해, 우리는 동적 커리큘럼 생성을 위한 적응형 궤적 샘플링(ATS) 전략과 메모리 의존적 기술 학습을 위한 역사적 인코딩 메커니즘을 개발한다. 우리의 접근법은 참조 시연을 크게 넘어서는 강력한 기술 습득을 가능하게 한다. 다양한 상호작용 작업에 걸친 광범위한 실험을 통해, 수렴 안정성, 일반화 능력, 그리고 회복 견고성 측면에서 최신 방법 대비 상당한 개선을 입증한다.
English
We address a fundamental challenge in Reinforcement Learning from Interaction Demonstration (RLID): demonstration noise and coverage limitations. While existing data collection approaches provide valuable interaction demonstrations, they often yield sparse, disconnected, and noisy trajectories that fail to capture the full spectrum of possible skill variations and transitions. Our key insight is that despite noisy and sparse demonstrations, there exist infinite physically feasible trajectories that naturally bridge between demonstrated skills or emerge from their neighboring states, forming a continuous space of possible skill variations and transitions. Building upon this insight, we present two data augmentation techniques: a Stitched Trajectory Graph (STG) that discovers potential transitions between demonstration skills, and a State Transition Field (STF) that establishes unique connections for arbitrary states within the demonstration neighborhood. To enable effective RLID with augmented data, we develop an Adaptive Trajectory Sampling (ATS) strategy for dynamic curriculum generation and a historical encoding mechanism for memory-dependent skill learning. Our approach enables robust skill acquisition that significantly generalizes beyond the reference demonstrations. Extensive experiments across diverse interaction tasks demonstrate substantial improvements over state-of-the-art methods in terms of convergence stability, generalization capability, and recovery robustness.

Summary

AI-Generated Summary

PDF121May 6, 2025