ChatPaper.aiChatPaper

SkillMimic-V2: Aprendendo Habilidades de Interação Robustas e Generalizáveis a partir de Demonstrações Escassas e Ruidosas

SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations

May 4, 2025
Autores: Runyi Yu, Yinhuai Wang, Qihan Zhao, Hok Wai Tsui, Jingbo Wang, Ping Tan, Qifeng Chen
cs.AI

Resumo

Abordamos um desafio fundamental no Aprendizado por Reforço a partir de Demonstrações de Interação (RLID): ruído nas demonstrações e limitações de cobertura. Embora as abordagens existentes de coleta de dados forneçam demonstrações de interação valiosas, elas frequentemente resultam em trajetórias esparsas, desconectadas e ruidosas que não capturam todo o espectro de possíveis variações e transições de habilidades. Nossa principal percepção é que, apesar das demonstrações ruidosas e esparsas, existem infinitas trajetórias fisicamente viáveis que naturalmente conectam habilidades demonstradas ou emergem de seus estados vizinhos, formando um espaço contínuo de possíveis variações e transições de habilidades. Com base nessa percepção, apresentamos duas técnicas de aumento de dados: um Grafo de Trajetórias Costuradas (STG) que descobre transições potenciais entre habilidades demonstradas, e um Campo de Transição de Estados (STF) que estabelece conexões únicas para estados arbitrários dentro da vizinhança das demonstrações. Para permitir um RLID eficaz com dados aumentados, desenvolvemos uma estratégia de Amostragem Adaptativa de Trajetórias (ATS) para geração dinâmica de currículo e um mecanismo de codificação histórica para aprendizado de habilidades dependentes de memória. Nossa abordagem possibilita a aquisição robusta de habilidades que se generaliza significativamente além das demonstrações de referência. Experimentos extensos em diversas tarefas de interação demonstram melhorias substanciais em relação aos métodos state-of-the-art em termos de estabilidade de convergência, capacidade de generalização e robustez de recuperação.
English
We address a fundamental challenge in Reinforcement Learning from Interaction Demonstration (RLID): demonstration noise and coverage limitations. While existing data collection approaches provide valuable interaction demonstrations, they often yield sparse, disconnected, and noisy trajectories that fail to capture the full spectrum of possible skill variations and transitions. Our key insight is that despite noisy and sparse demonstrations, there exist infinite physically feasible trajectories that naturally bridge between demonstrated skills or emerge from their neighboring states, forming a continuous space of possible skill variations and transitions. Building upon this insight, we present two data augmentation techniques: a Stitched Trajectory Graph (STG) that discovers potential transitions between demonstration skills, and a State Transition Field (STF) that establishes unique connections for arbitrary states within the demonstration neighborhood. To enable effective RLID with augmented data, we develop an Adaptive Trajectory Sampling (ATS) strategy for dynamic curriculum generation and a historical encoding mechanism for memory-dependent skill learning. Our approach enables robust skill acquisition that significantly generalizes beyond the reference demonstrations. Extensive experiments across diverse interaction tasks demonstrate substantial improvements over state-of-the-art methods in terms of convergence stability, generalization capability, and recovery robustness.
PDF181February 8, 2026