SkillMimic-V2: Apprendimento di Abilità di Interazione Robuste e Generalizzabili da Dimostrazioni Scarse e Rumore
SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations
May 4, 2025
Autori: Runyi Yu, Yinhuai Wang, Qihan Zhao, Hok Wai Tsui, Jingbo Wang, Ping Tan, Qifeng Chen
cs.AI
Abstract
Affrontiamo una sfida fondamentale nel Reinforcement Learning da Dimostrazioni di Interazione (RLID): il rumore nelle dimostrazioni e le limitazioni di copertura. Sebbene gli approcci esistenti per la raccolta dati forniscano dimostrazioni di interazione preziose, spesso producono traiettorie sparse, disconnesse e rumorose che non catturano l'intero spettro di possibili variazioni e transizioni delle abilità. La nostra intuizione chiave è che, nonostante dimostrazioni rumorose e sparse, esistono infinite traiettorie fisicamente fattibili che naturalmente collegano le abilità dimostrate o emergono dai loro stati vicini, formando uno spazio continuo di possibili variazioni e transizioni delle abilità. Basandoci su questa intuizione, presentiamo due tecniche di aumento dei dati: un Grafo di Traiettorie Cucite (STG) che scopre potenziali transizioni tra le abilità dimostrate, e un Campo di Transizione di Stato (STF) che stabilisce connessioni uniche per stati arbitrari all'interno del vicinato delle dimostrazioni. Per abilitare un RLID efficace con dati aumentati, sviluppiamo una strategia di Campionamento Adattivo delle Traiettorie (ATS) per la generazione dinamica di un curriculum e un meccanismo di codifica storica per l'apprendimento di abilità dipendenti dalla memoria. Il nostro approccio consente un'acquisizione robusta delle abilità che si generalizza significativamente oltre le dimostrazioni di riferimento. Esperimenti estesi su diverse attività di interazione dimostrano miglioramenti sostanziali rispetto ai metodi all'avanguardia in termini di stabilità di convergenza, capacità di generalizzazione e robustezza di recupero.
English
We address a fundamental challenge in Reinforcement Learning from Interaction
Demonstration (RLID): demonstration noise and coverage limitations. While
existing data collection approaches provide valuable interaction
demonstrations, they often yield sparse, disconnected, and noisy trajectories
that fail to capture the full spectrum of possible skill variations and
transitions. Our key insight is that despite noisy and sparse demonstrations,
there exist infinite physically feasible trajectories that naturally bridge
between demonstrated skills or emerge from their neighboring states, forming a
continuous space of possible skill variations and transitions. Building upon
this insight, we present two data augmentation techniques: a Stitched
Trajectory Graph (STG) that discovers potential transitions between
demonstration skills, and a State Transition Field (STF) that establishes
unique connections for arbitrary states within the demonstration neighborhood.
To enable effective RLID with augmented data, we develop an Adaptive Trajectory
Sampling (ATS) strategy for dynamic curriculum generation and a historical
encoding mechanism for memory-dependent skill learning. Our approach enables
robust skill acquisition that significantly generalizes beyond the reference
demonstrations. Extensive experiments across diverse interaction tasks
demonstrate substantial improvements over state-of-the-art methods in terms of
convergence stability, generalization capability, and recovery robustness.