RoboCurate: Использование разнообразия с помощью проверенных действиями нейронных траекторий для обучения роботов
RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning
February 21, 2026
Авторы: Seungku Kim, Suhyeok Jang, Byungjun Yoon, Dongyoung Kim, John Won, Jinwoo Shin
cs.AI
Аннотация
Синтетические данные, генерируемые видео-генеративными моделями, демонстрируют потенциал для обучения роботов как масштабируемый конвейер, однако часто страдают от нестабильного качества действий из-за неидеально сгенерированных видео. В последнее время для проверки качества видео используются модели "визуальный язык" (VLMs), но они имеют ограничения в различении физически корректных видео и, даже в этом случае, не могут напрямую оценить сами сгенерированные действия. Для решения этой проблемы мы представляем RoboCurate — новую структуру для генерации синтетических роботизированных данных, которая оценивает и фильтрует качество аннотированных действий, сравнивая их с воспроизведением в симуляции. В частности, RoboCurate воспроизводит предсказанные действия в симуляторе и оценивает качество действий, измеряя согласованность движений между развёртыванием в симуляторе и сгенерированным видео. Кроме того, мы обеспечиваем разнообразие наблюдений, выходящее за пределы доступного набора данных, с помощью редактирования "изображение-в-изображение" и применяем перенос "видео-в-видео" с сохранением действий для дальнейшего расширения вариативности внешнего вида. Мы наблюдаем, что данные, сгенерированные RoboCurate, дают существенное относительное улучшение показателей успешности по сравнению с использованием только реальных данных: +70,1% на GR-1 Tabletop (300 демо), +16,1% на DexMimicGen в настройке предварительного обучения и +179,9% в сложных условиях реального мира ALLEX для манипуляций человекоподобного робота.
English
Synthetic data generated by video generative models has shown promise for robot learning as a scalable pipeline, but it often suffers from inconsistent action quality due to imperfectly generated videos. Recently, vision-language models (VLMs) have been leveraged to validate video quality, but they have limitations in distinguishing physically accurate videos and, even then, cannot directly evaluate the generated actions themselves. To tackle this issue, we introduce RoboCurate, a novel synthetic robot data generation framework that evaluates and filters the quality of annotated actions by comparing them with simulation replay. Specifically, RoboCurate replays the predicted actions in a simulator and assesses action quality by measuring the consistency of motion between the simulator rollout and the generated video. In addition, we unlock observation diversity beyond the available dataset via image-to-image editing and apply action-preserving video-to-video transfer to further augment appearance. We observe RoboCurate's generated data yield substantial relative improvements in success rates compared to using real data only, achieving +70.1% on GR-1 Tabletop (300 demos), +16.1% on DexMimicGen in the pre-training setup, and +179.9% in the challenging real-world ALLEX humanoid dexterous manipulation setting.