ChatPaper.aiChatPaper

SkillMimic-V2: Aprendizaje de Habilidades de Interacción Robustas y Generalizables a partir de Demostraciones Escasas y Ruidosas

SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations

May 4, 2025
Autores: Runyi Yu, Yinhuai Wang, Qihan Zhao, Hok Wai Tsui, Jingbo Wang, Ping Tan, Qifeng Chen
cs.AI

Resumen

Abordamos un desafío fundamental en el Aprendizaje por Refuerzo a partir de Demostraciones de Interacción (RLID): el ruido en las demostraciones y las limitaciones de cobertura. Si bien los enfoques existentes de recopilación de datos proporcionan demostraciones de interacción valiosas, a menudo generan trayectorias dispersas, desconectadas y ruidosas que no logran capturar el espectro completo de posibles variaciones y transiciones de habilidades. Nuestra idea clave es que, a pesar de las demostraciones ruidosas y dispersas, existen infinitas trayectorias físicamente factibles que conectan naturalmente entre habilidades demostradas o emergen de sus estados vecinos, formando un espacio continuo de posibles variaciones y transiciones de habilidades. Basándonos en esta idea, presentamos dos técnicas de aumento de datos: un Grafo de Trayectorias Cosidas (STG) que descubre transiciones potenciales entre habilidades demostradas, y un Campo de Transición de Estado (STF) que establece conexiones únicas para estados arbitrarios dentro del vecindario de la demostración. Para permitir un RLID efectivo con datos aumentados, desarrollamos una estrategia de Muestreo Adaptativo de Trayectorias (ATS) para la generación dinámica de un currículo y un mecanismo de codificación histórica para el aprendizaje de habilidades dependientes de la memoria. Nuestro enfoque permite la adquisición robusta de habilidades que se generaliza significativamente más allá de las demostraciones de referencia. Experimentos extensos en diversas tareas de interacción demuestran mejoras sustanciales sobre los métodos más avanzados en términos de estabilidad de convergencia, capacidad de generalización y robustez de recuperación.
English
We address a fundamental challenge in Reinforcement Learning from Interaction Demonstration (RLID): demonstration noise and coverage limitations. While existing data collection approaches provide valuable interaction demonstrations, they often yield sparse, disconnected, and noisy trajectories that fail to capture the full spectrum of possible skill variations and transitions. Our key insight is that despite noisy and sparse demonstrations, there exist infinite physically feasible trajectories that naturally bridge between demonstrated skills or emerge from their neighboring states, forming a continuous space of possible skill variations and transitions. Building upon this insight, we present two data augmentation techniques: a Stitched Trajectory Graph (STG) that discovers potential transitions between demonstration skills, and a State Transition Field (STF) that establishes unique connections for arbitrary states within the demonstration neighborhood. To enable effective RLID with augmented data, we develop an Adaptive Trajectory Sampling (ATS) strategy for dynamic curriculum generation and a historical encoding mechanism for memory-dependent skill learning. Our approach enables robust skill acquisition that significantly generalizes beyond the reference demonstrations. Extensive experiments across diverse interaction tasks demonstrate substantial improvements over state-of-the-art methods in terms of convergence stability, generalization capability, and recovery robustness.

Summary

AI-Generated Summary

PDF141May 6, 2025