RoboCurate: Sfruttare la Diversità con Traiettorie Neurali Verificate dall'Azione per l'Apprendimento dei Robot
RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning
February 21, 2026
Autori: Seungku Kim, Suhyeok Jang, Byungjun Yoon, Dongyoung Kim, John Won, Jinwoo Shin
cs.AI
Abstract
I dati sintetici generati da modelli generativi video hanno mostrato potenzialità per l'apprendimento robotico come pipeline scalabile, ma spesso soffrono di qualità d'azione inconsistente a causa di video generati in modo imperfetto. Recentemente, i modelli visione-linguaggio (VLM) sono stati utilizzati per validare la qualità video, ma presentano limitazioni nel distinguere video fisicamente accurati e, anche in tal caso, non possono valutare direttamente le azioni generate stesse. Per affrontare questo problema, introduciamo RoboCurate, un nuovo framework di generazione di dati robotici sintetici che valuta e filtra la qualità delle azioni annotate confrontandole con un replay di simulazione. Nello specifico, RoboCurate riproduce le azioni predette in un simulatore e valuta la qualità dell'azione misurando la consistenza del movimento tra l'esecuzione del simulatore e il video generato. Inoltre, sblocchiamo la diversità delle osservazioni oltre il dataset disponibile tramite editing immagine-immagine e applichiamo un trasferimento video-a-video che preserva l'azione per aumentare ulteriormente l'aspetto. Osserviamo che i dati generati da RoboCurate producono sostanziali miglioramenti relativi nei tassi di successo rispetto all'uso di soli dati reali, raggiungendo +70,1% su GR-1 Tabletop (300 demo), +16,1% su DexMimicGen nella configurazione di pre-training e +179,9% nell'impegnativo setting di manipolazione destra umanoide ALLEX nel mondo reale.
English
Synthetic data generated by video generative models has shown promise for robot learning as a scalable pipeline, but it often suffers from inconsistent action quality due to imperfectly generated videos. Recently, vision-language models (VLMs) have been leveraged to validate video quality, but they have limitations in distinguishing physically accurate videos and, even then, cannot directly evaluate the generated actions themselves. To tackle this issue, we introduce RoboCurate, a novel synthetic robot data generation framework that evaluates and filters the quality of annotated actions by comparing them with simulation replay. Specifically, RoboCurate replays the predicted actions in a simulator and assesses action quality by measuring the consistency of motion between the simulator rollout and the generated video. In addition, we unlock observation diversity beyond the available dataset via image-to-image editing and apply action-preserving video-to-video transfer to further augment appearance. We observe RoboCurate's generated data yield substantial relative improvements in success rates compared to using real data only, achieving +70.1% on GR-1 Tabletop (300 demos), +16.1% on DexMimicGen in the pre-training setup, and +179.9% in the challenging real-world ALLEX humanoid dexterous manipulation setting.