ChatPaper.aiChatPaper

SkillMimic-V2: Robuuste en generaliseerbare interactievaardigheden leren van schaarse en ruisachtige demonstraties

SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations

May 4, 2025
Auteurs: Runyi Yu, Yinhuai Wang, Qihan Zhao, Hok Wai Tsui, Jingbo Wang, Ping Tan, Qifeng Chen
cs.AI

Samenvatting

We behandelen een fundamentele uitdaging in Reinforcement Learning from Interaction Demonstration (RLID): demonstratieruis en beperkte dekking. Hoewel bestaande methoden voor gegevensverzameling waardevolle interactiedemonstraties opleveren, resulteren ze vaak in spaarzame, onsamenhangende en ruisachtige trajecten die het volledige spectrum van mogelijke vaardigheidsvariaties en overgangen niet vastleggen. Onze belangrijkste inzicht is dat ondanks ruisachtige en spaarzame demonstraties, er oneindig veel fysiek haalbare trajecten bestaan die natuurlijk bruggen vormen tussen gedemonstreerde vaardigheden of voortkomen uit hun naburige toestanden, waardoor een continuüm van mogelijke vaardigheidsvariaties en overgangen ontstaat. Gebaseerd op dit inzicht presenteren we twee technieken voor gegevensaugmentatie: een Gestikt Trajectoriegrafiek (STG) die potentiële overgangen tussen demonstratievaardigheden ontdekt, en een Toestandsovergangsveld (STF) die unieke verbindingen legt voor willekeurige toestanden binnen de demonstratieomgeving. Om effectieve RLID met uitgebreide gegevens mogelijk te maken, ontwikkelen we een Adaptieve Trajectoriebemonsteringsstrategie (ATS) voor dynamische curriculumgeneratie en een historisch coderingsmechanisme voor geheugenafhankelijk vaardigheidsleren. Onze aanpak maakt robuuste vaardigheidsverwerving mogelijk die aanzienlijk generaliseert buiten de referentiedemonstraties. Uitgebreide experimenten over diverse interactietaken tonen aanzienlijke verbeteringen ten opzichte van state-of-the-art methoden op het gebied van convergentiestabiliteit, generalisatievermogen en herstelrobustheid.
English
We address a fundamental challenge in Reinforcement Learning from Interaction Demonstration (RLID): demonstration noise and coverage limitations. While existing data collection approaches provide valuable interaction demonstrations, they often yield sparse, disconnected, and noisy trajectories that fail to capture the full spectrum of possible skill variations and transitions. Our key insight is that despite noisy and sparse demonstrations, there exist infinite physically feasible trajectories that naturally bridge between demonstrated skills or emerge from their neighboring states, forming a continuous space of possible skill variations and transitions. Building upon this insight, we present two data augmentation techniques: a Stitched Trajectory Graph (STG) that discovers potential transitions between demonstration skills, and a State Transition Field (STF) that establishes unique connections for arbitrary states within the demonstration neighborhood. To enable effective RLID with augmented data, we develop an Adaptive Trajectory Sampling (ATS) strategy for dynamic curriculum generation and a historical encoding mechanism for memory-dependent skill learning. Our approach enables robust skill acquisition that significantly generalizes beyond the reference demonstrations. Extensive experiments across diverse interaction tasks demonstrate substantial improvements over state-of-the-art methods in terms of convergence stability, generalization capability, and recovery robustness.
PDF181May 6, 2025