SkillMimic-V2: Robuste und generalisierbare Interaktionsfähigkeiten aus spärlichen und verrauschten Demonstrationen lernen
SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations
May 4, 2025
Autoren: Runyi Yu, Yinhuai Wang, Qihan Zhao, Hok Wai Tsui, Jingbo Wang, Ping Tan, Qifeng Chen
cs.AI
Zusammenfassung
Wir adressieren eine grundlegende Herausforderung beim Reinforcement Learning from Interaction Demonstration (RLID): Rauschen in den Demonstrationen und deren begrenzte Abdeckung. Während bestehende Ansätze zur Datensammlung wertvolle Interaktionsdemonstrationen liefern, erzeugen sie oft spärliche, unzusammenhängende und verrauschte Trajektorien, die das gesamte Spektrum möglicher Fähigkeitsvariationen und Übergänge nicht erfassen. Unsere zentrale Erkenntnis ist, dass es trotz verrauschter und spärlicher Demonstrationen unendlich viele physikalisch realisierbare Trajektorien gibt, die natürlicherweise zwischen demonstrierten Fähigkeiten vermitteln oder aus deren benachbarten Zuständen hervorgehen und so einen kontinuierlichen Raum möglicher Fähigkeitsvariationen und Übergänge bilden. Aufbauend auf dieser Erkenntnis präsentieren wir zwei Datenaugmentierungstechniken: einen Stitched Trajectory Graph (STG), der potenzielle Übergänge zwischen demonstrierten Fähigkeiten entdeckt, und ein State Transition Field (STF), das eindeutige Verbindungen für beliebige Zustände in der Nachbarschaft der Demonstrationen herstellt. Um effektives RLID mit augmentierten Daten zu ermöglichen, entwickeln wir eine Adaptive Trajectory Sampling (ATS)-Strategie zur dynamischen Generierung eines Lehrplans und einen historischen Encodierungsmechanismus für das lernabhängige Erlernen von Fähigkeiten. Unser Ansatz ermöglicht eine robuste Fähigkeitserwerbung, die sich signifikant über die Referenzdemonstrationen hinaus verallgemeinert. Umfangreiche Experimente über diverse Interaktionsaufgaben hinweg zeigen deutliche Verbesserungen gegenüber state-of-the-art Methoden in Bezug auf Konvergenzstabilität, Generalisierungsfähigkeit und Wiederherstellungsrobustheit.
English
We address a fundamental challenge in Reinforcement Learning from Interaction
Demonstration (RLID): demonstration noise and coverage limitations. While
existing data collection approaches provide valuable interaction
demonstrations, they often yield sparse, disconnected, and noisy trajectories
that fail to capture the full spectrum of possible skill variations and
transitions. Our key insight is that despite noisy and sparse demonstrations,
there exist infinite physically feasible trajectories that naturally bridge
between demonstrated skills or emerge from their neighboring states, forming a
continuous space of possible skill variations and transitions. Building upon
this insight, we present two data augmentation techniques: a Stitched
Trajectory Graph (STG) that discovers potential transitions between
demonstration skills, and a State Transition Field (STF) that establishes
unique connections for arbitrary states within the demonstration neighborhood.
To enable effective RLID with augmented data, we develop an Adaptive Trajectory
Sampling (ATS) strategy for dynamic curriculum generation and a historical
encoding mechanism for memory-dependent skill learning. Our approach enables
robust skill acquisition that significantly generalizes beyond the reference
demonstrations. Extensive experiments across diverse interaction tasks
demonstrate substantial improvements over state-of-the-art methods in terms of
convergence stability, generalization capability, and recovery robustness.Summary
AI-Generated Summary