SkillMimic-V2: Aprendizaje de Habilidades de Interacción Robustas y Generalizables a partir de Demostraciones Escasas y Ruidosas
SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations
May 4, 2025
Autores: Runyi Yu, Yinhuai Wang, Qihan Zhao, Hok Wai Tsui, Jingbo Wang, Ping Tan, Qifeng Chen
cs.AI
Resumen
Abordamos un desafío fundamental en el Aprendizaje por Refuerzo a partir de Demostraciones de Interacción (RLID): el ruido en las demostraciones y las limitaciones de cobertura. Si bien los enfoques existentes de recopilación de datos proporcionan demostraciones de interacción valiosas, a menudo generan trayectorias dispersas, desconectadas y ruidosas que no logran capturar el espectro completo de posibles variaciones y transiciones de habilidades. Nuestra idea clave es que, a pesar de las demostraciones ruidosas y dispersas, existen infinitas trayectorias físicamente factibles que conectan naturalmente entre habilidades demostradas o emergen de sus estados vecinos, formando un espacio continuo de posibles variaciones y transiciones de habilidades. Basándonos en esta idea, presentamos dos técnicas de aumento de datos: un Grafo de Trayectorias Cosidas (STG) que descubre transiciones potenciales entre habilidades demostradas, y un Campo de Transición de Estado (STF) que establece conexiones únicas para estados arbitrarios dentro del vecindario de la demostración. Para permitir un RLID efectivo con datos aumentados, desarrollamos una estrategia de Muestreo Adaptativo de Trayectorias (ATS) para la generación dinámica de un currículo y un mecanismo de codificación histórica para el aprendizaje de habilidades dependientes de la memoria. Nuestro enfoque permite la adquisición robusta de habilidades que se generaliza significativamente más allá de las demostraciones de referencia. Experimentos extensos en diversas tareas de interacción demuestran mejoras sustanciales sobre los métodos más avanzados en términos de estabilidad de convergencia, capacidad de generalización y robustez de recuperación.
English
We address a fundamental challenge in Reinforcement Learning from Interaction
Demonstration (RLID): demonstration noise and coverage limitations. While
existing data collection approaches provide valuable interaction
demonstrations, they often yield sparse, disconnected, and noisy trajectories
that fail to capture the full spectrum of possible skill variations and
transitions. Our key insight is that despite noisy and sparse demonstrations,
there exist infinite physically feasible trajectories that naturally bridge
between demonstrated skills or emerge from their neighboring states, forming a
continuous space of possible skill variations and transitions. Building upon
this insight, we present two data augmentation techniques: a Stitched
Trajectory Graph (STG) that discovers potential transitions between
demonstration skills, and a State Transition Field (STF) that establishes
unique connections for arbitrary states within the demonstration neighborhood.
To enable effective RLID with augmented data, we develop an Adaptive Trajectory
Sampling (ATS) strategy for dynamic curriculum generation and a historical
encoding mechanism for memory-dependent skill learning. Our approach enables
robust skill acquisition that significantly generalizes beyond the reference
demonstrations. Extensive experiments across diverse interaction tasks
demonstrate substantial improvements over state-of-the-art methods in terms of
convergence stability, generalization capability, and recovery robustness.Summary
AI-Generated Summary