RoboCurate: Aprovechando la Diversidad con Trayectorias Neuronales Verificadas por Acción para el Aprendizaje Robótico
RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning
February 21, 2026
Autores: Seungku Kim, Suhyeok Jang, Byungjun Yoon, Dongyoung Kim, John Won, Jinwoo Shin
cs.AI
Resumen
Los datos sintéticos generados por modelos generativos de video han mostrado potencial para el aprendizaje robótico como una canalización escalable, pero a menudo sufren de calidad de acción inconsistente debido a videos generados de manera imperfecta. Recientemente, se han utilizado modelos de visión y lenguaje (VLM) para validar la calidad del video, pero tienen limitaciones para distinguir videos físicamente precisos y, incluso en ese caso, no pueden evaluar directamente las acciones generadas en sí mismas. Para abordar este problema, presentamos RoboCurate, un novedoso marco de generación de datos robóticos sintéticos que evalúa y filtra la calidad de las acciones anotadas comparándolas con una reproducción en simulación. Específicamente, RoboCurate reproduce las acciones predichas en un simulador y evalúa la calidad de la acción midiendo la consistencia del movimiento entre el desarrollo del simulador y el video generado. Además, desbloqueamos la diversidad de observación más allá del conjunto de datos disponible mediante edición de imagen a imagen y aplicamos transferencia de video a video que preserva la acción para aumentar aún más la apariencia. Observamos que los datos generados por RoboCurate producen mejoras relativas sustanciales en las tasas de éxito en comparación con el uso exclusivo de datos reales, logrando +70.1% en GR-1 Tabletop (300 demostraciones), +16.1% en DexMimicGen en la configuración de pre-entrenamiento, y +179.9% en el desafiante entorno del mundo real de manipulación diestra humanoide ALLEX.
English
Synthetic data generated by video generative models has shown promise for robot learning as a scalable pipeline, but it often suffers from inconsistent action quality due to imperfectly generated videos. Recently, vision-language models (VLMs) have been leveraged to validate video quality, but they have limitations in distinguishing physically accurate videos and, even then, cannot directly evaluate the generated actions themselves. To tackle this issue, we introduce RoboCurate, a novel synthetic robot data generation framework that evaluates and filters the quality of annotated actions by comparing them with simulation replay. Specifically, RoboCurate replays the predicted actions in a simulator and assesses action quality by measuring the consistency of motion between the simulator rollout and the generated video. In addition, we unlock observation diversity beyond the available dataset via image-to-image editing and apply action-preserving video-to-video transfer to further augment appearance. We observe RoboCurate's generated data yield substantial relative improvements in success rates compared to using real data only, achieving +70.1% on GR-1 Tabletop (300 demos), +16.1% on DexMimicGen in the pre-training setup, and +179.9% in the challenging real-world ALLEX humanoid dexterous manipulation setting.