ChatPaper.aiChatPaper

SkillMimic-V2: Обучение устойчивым и обобщаемым навыкам взаимодействия на основе редких и зашумленных демонстраций

SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations

May 4, 2025
Авторы: Runyi Yu, Yinhuai Wang, Qihan Zhao, Hok Wai Tsui, Jingbo Wang, Ping Tan, Qifeng Chen
cs.AI

Аннотация

Мы рассматриваем фундаментальную проблему в обучении с подкреплением на основе демонстраций взаимодействия (RLID): шум в демонстрациях и ограничения их охвата. Хотя существующие подходы к сбору данных предоставляют ценные демонстрации взаимодействия, они часто приводят к разреженным, разрозненным и зашумленным траекториям, которые не охватывают весь спектр возможных вариаций навыков и переходов. Наше ключевое наблюдение заключается в том, что, несмотря на зашумленные и разреженные демонстрации, существует бесконечное множество физически реализуемых траекторий, которые естественным образом связывают продемонстрированные навыки или возникают из их соседних состояний, формируя непрерывное пространство возможных вариаций навыков и переходов. Основываясь на этом наблюдении, мы предлагаем два метода увеличения данных: Граф Сшитых Траекторий (STG), который обнаруживает потенциальные переходы между продемонстрированными навыками, и Поле Переходов Состояний (STF), которое устанавливает уникальные связи для произвольных состояний в окрестности демонстраций. Для эффективного RLID с увеличенными данными мы разрабатываем стратегию Адаптивной Выборки Траекторий (ATS) для динамического формирования учебного плана и механизм исторического кодирования для обучения навыкам, зависящим от памяти. Наш подход обеспечивает устойчивое освоение навыков, которое значительно обобщается за пределы эталонных демонстраций. Многочисленные эксперименты в различных задачах взаимодействия демонстрируют существенное улучшение по сравнению с современными методами в плане устойчивости сходимости, способности к обобщению и устойчивости к восстановлению.
English
We address a fundamental challenge in Reinforcement Learning from Interaction Demonstration (RLID): demonstration noise and coverage limitations. While existing data collection approaches provide valuable interaction demonstrations, they often yield sparse, disconnected, and noisy trajectories that fail to capture the full spectrum of possible skill variations and transitions. Our key insight is that despite noisy and sparse demonstrations, there exist infinite physically feasible trajectories that naturally bridge between demonstrated skills or emerge from their neighboring states, forming a continuous space of possible skill variations and transitions. Building upon this insight, we present two data augmentation techniques: a Stitched Trajectory Graph (STG) that discovers potential transitions between demonstration skills, and a State Transition Field (STF) that establishes unique connections for arbitrary states within the demonstration neighborhood. To enable effective RLID with augmented data, we develop an Adaptive Trajectory Sampling (ATS) strategy for dynamic curriculum generation and a historical encoding mechanism for memory-dependent skill learning. Our approach enables robust skill acquisition that significantly generalizes beyond the reference demonstrations. Extensive experiments across diverse interaction tasks demonstrate substantial improvements over state-of-the-art methods in terms of convergence stability, generalization capability, and recovery robustness.

Summary

AI-Generated Summary

PDF141May 6, 2025