SkillMimic-V2 : Apprentissage de compétences d'interaction robustes et généralisables à partir de démonstrations éparses et bruitées
SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations
May 4, 2025
Auteurs: Runyi Yu, Yinhuai Wang, Qihan Zhao, Hok Wai Tsui, Jingbo Wang, Ping Tan, Qifeng Chen
cs.AI
Résumé
Nous abordons un défi fondamental dans l'apprentissage par renforcement à partir de démonstrations d'interaction (RLID) : le bruit des démonstrations et les limitations de couverture. Bien que les approches existantes de collecte de données fournissent des démonstrations d'interaction précieuses, elles produisent souvent des trajectoires éparses, discontinues et bruitées qui ne capturent pas l'ensemble des variations et transitions possibles des compétences. Notre idée clé est que, malgré des démonstrations bruitées et éparses, il existe une infinité de trajectoires physiquement réalisables qui relient naturellement les compétences démontrées ou émergent de leurs états voisins, formant ainsi un espace continu de variations et transitions possibles des compétences. En nous appuyant sur cette intuition, nous présentons deux techniques d'augmentation de données : un Graphe de Trajectoires Cousues (STG) qui découvre les transitions potentielles entre les compétences démontrées, et un Champ de Transition d'État (STF) qui établit des connexions uniques pour des états arbitraires dans le voisinage des démonstrations. Pour permettre un RLID efficace avec des données augmentées, nous développons une stratégie d'Échantillonnage Adaptatif de Trajectoires (ATS) pour la génération dynamique de curriculums et un mécanisme d'encodage historique pour l'apprentissage de compétences dépendant de la mémoire. Notre approche permet une acquisition robuste de compétences qui généralise significativement au-delà des démonstrations de référence. Des expériences approfondies sur diverses tâches d'interaction démontrent des améliorations substantielles par rapport aux méthodes de pointe en termes de stabilité de convergence, de capacité de généralisation et de robustesse de récupération.
English
We address a fundamental challenge in Reinforcement Learning from Interaction
Demonstration (RLID): demonstration noise and coverage limitations. While
existing data collection approaches provide valuable interaction
demonstrations, they often yield sparse, disconnected, and noisy trajectories
that fail to capture the full spectrum of possible skill variations and
transitions. Our key insight is that despite noisy and sparse demonstrations,
there exist infinite physically feasible trajectories that naturally bridge
between demonstrated skills or emerge from their neighboring states, forming a
continuous space of possible skill variations and transitions. Building upon
this insight, we present two data augmentation techniques: a Stitched
Trajectory Graph (STG) that discovers potential transitions between
demonstration skills, and a State Transition Field (STF) that establishes
unique connections for arbitrary states within the demonstration neighborhood.
To enable effective RLID with augmented data, we develop an Adaptive Trajectory
Sampling (ATS) strategy for dynamic curriculum generation and a historical
encoding mechanism for memory-dependent skill learning. Our approach enables
robust skill acquisition that significantly generalizes beyond the reference
demonstrations. Extensive experiments across diverse interaction tasks
demonstrate substantial improvements over state-of-the-art methods in terms of
convergence stability, generalization capability, and recovery robustness.Summary
AI-Generated Summary