RoboCurate: Benutten van Diversiteit met Actiegeverifieerde Neurale Trajectorie voor Robotleren

Samenvatting

Synthetische data gegenereerd door videogeneratieve modellen heeft potentie getoond voor robotleren als schaalbare pijplijn, maar lijdt vaak onder inconsistente actiekwaliteit door imperfect gegenereerde video's. Recent werden vision-language modellen (VLM's) ingezet om videokwaliteit te valideren, maar ze hebben beperkingen in het onderscheiden van fysiek accurate video's en kunnen zelfs dan de gegenereerde acties zelf niet direct evalueren. Om dit probleem aan te pakken, introduceren we RoboCurate, een nieuw kader voor synthetische robotdatageneratie dat geannoteerde acties evalueert en filtert op kwaliteit door ze te vergelijken met simulatiereplays. Specifiek speelt RoboCurate de voorspelde acties af in een simulator en beoordeelt de actiekwaliteit door de consistentie van beweging tussen de simulator-uitrol en de gegenereerde video te meten. Daarnaast ontsluiten we observatiediversiteit voorbij de beschikbare dataset via beeld-naar-beeld-bewerking en passen we actiebehoudende video-naar-video-overdracht toe om de verschijning verder uit te breiden. We constateren dat RoboCurate's gegenereerde data substantiële relatieve verbeteringen in succespercentages opleveren vergeleken met uitsluitend echte data, met +70,1% op GR-1 Tabletop (300 demo's), +16,1% op DexMimicGen in de pre-trainingsopzet, en +179,9% in de uitdagende real-world ALLEX humanoïde behendige manipulatie-instelling.

English

Synthetic data generated by video generative models has shown promise for robot learning as a scalable pipeline, but it often suffers from inconsistent action quality due to imperfectly generated videos. Recently, vision-language models (VLMs) have been leveraged to validate video quality, but they have limitations in distinguishing physically accurate videos and, even then, cannot directly evaluate the generated actions themselves. To tackle this issue, we introduce RoboCurate, a novel synthetic robot data generation framework that evaluates and filters the quality of annotated actions by comparing them with simulation replay. Specifically, RoboCurate replays the predicted actions in a simulator and assesses action quality by measuring the consistency of motion between the simulator rollout and the generated video. In addition, we unlock observation diversity beyond the available dataset via image-to-image editing and apply action-preserving video-to-video transfer to further augment appearance. We observe RoboCurate's generated data yield substantial relative improvements in success rates compared to using real data only, achieving +70.1% on GR-1 Tabletop (300 demos), +16.1% on DexMimicGen in the pre-training setup, and +179.9% in the challenging real-world ALLEX humanoid dexterous manipulation setting.

RoboCurate: Benutten van Diversiteit met Actiegeverifieerde Neurale Trajectorie voor Robotleren

RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

Samenvatting

Support