RoboCurate : Exploiter la diversité par des trajectoires neuronales vérifiées par l'action pour l'apprentissage robotique

Résumé

Les données synthétiques générées par les modèles génératifs vidéo ont montré un potentiel pour l'apprentissage robotique en tant que pipeline évolutif, mais elles souffrent souvent d'une qualité d'action incohérente en raison de vidéos générées imparfaitement. Récemment, les modèles vision-langage (VLM) ont été utilisés pour valider la qualité vidéo, mais ils présentent des limitations pour distinguer les vidéos physiquement précises et, même dans ce cas, ne peuvent pas évaluer directement les actions générées elles-mêmes. Pour résoudre ce problème, nous présentons RoboCurate, un nouveau cadre de génération de données robotiques synthétiques qui évalue et filtre la qualité des actions annotées en les comparant avec une relecture en simulation. Plus précisément, RoboCurate rejoue les actions prédites dans un simulateur et évalue la qualité de l'action en mesurant la cohérence du mouvement entre la simulation et la vidéo générée. De plus, nous déverrouillons une diversité d'observations au-delà du jeu de données disponible via l'édition d'image-à-image et appliquons un transfert vidéo-à-vidéo préservant l'action pour augmenter davantage l'apparence. Nous observons que les données générées par RoboCurate produisent des améliorations relatives substantielles des taux de réussite par rapport à l'utilisation de données réelles uniquement, atteignant +70,1 % sur GR-1 Tabletop (300 démos), +16,1 % sur DexMimicGen en configuration de pré-entraînement, et +179,9 % dans le cadre exigeant de manipulation dextre humanoïde ALLEX en conditions réelles.

English

Synthetic data generated by video generative models has shown promise for robot learning as a scalable pipeline, but it often suffers from inconsistent action quality due to imperfectly generated videos. Recently, vision-language models (VLMs) have been leveraged to validate video quality, but they have limitations in distinguishing physically accurate videos and, even then, cannot directly evaluate the generated actions themselves. To tackle this issue, we introduce RoboCurate, a novel synthetic robot data generation framework that evaluates and filters the quality of annotated actions by comparing them with simulation replay. Specifically, RoboCurate replays the predicted actions in a simulator and assesses action quality by measuring the consistency of motion between the simulator rollout and the generated video. In addition, we unlock observation diversity beyond the available dataset via image-to-image editing and apply action-preserving video-to-video transfer to further augment appearance. We observe RoboCurate's generated data yield substantial relative improvements in success rates compared to using real data only, achieving +70.1% on GR-1 Tabletop (300 demos), +16.1% on DexMimicGen in the pre-training setup, and +179.9% in the challenging real-world ALLEX humanoid dexterous manipulation setting.

RoboCurate : Exploiter la diversité par des trajectoires neuronales vérifiées par l'action pour l'apprentissage robotique

RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

Résumé

Support