RoboCurate: Aproveitando a Diversidade com Trajetória Neural Verificada por Ação para Aprendizado de Robôs
RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning
February 21, 2026
Autores: Seungku Kim, Suhyeok Jang, Byungjun Yoon, Dongyoung Kim, John Won, Jinwoo Shin
cs.AI
Resumo
Os dados sintéticos gerados por modelos generativos de vídeo têm demonstrado potencial para o aprendizado de robôs como um pipeline escalável, mas frequentemente sofrem com inconsistência na qualidade das ações devido a vídeos gerados de forma imperfeita. Recentemente, modelos de visão e linguagem (VLMs) têm sido utilizados para validar a qualidade de vídeos, mas possuem limitações em distinguir vídeos fisicamente precisos e, mesmo assim, não podem avaliar diretamente as ações geradas em si. Para resolver esse problema, introduzimos o RoboCurate, uma nova estrutura de geração de dados robóticos sintéticos que avalia e filtra a qualidade das ações anotadas comparando-as com uma reprodução em simulação. Especificamente, o RoboCurate reproduz as ações previstas em um simulador e avalia a qualidade da ação medindo a consistência do movimento entre a execução no simulador e o vídeo gerado. Além disso, liberamos a diversidade de observação além do conjunto de dados disponível por meio de edição imagem-a-imagem e aplicamos transferência vídeo-a-vídeo que preserva a ação para aumentar ainda mais a aparência. Observamos que os dados gerados pelo RoboCurate produzem melhorias relativas substanciais nas taxas de sucesso em comparação com o uso apenas de dados reais, alcançando +70,1% no GR-1 Tabletop (300 demonstrações), +16,1% no DexMimicGen na configuração de pré-treinamento e +179,9% no desafiador cenário de manipulação destra humanóide do ALLEX no mundo real.
English
Synthetic data generated by video generative models has shown promise for robot learning as a scalable pipeline, but it often suffers from inconsistent action quality due to imperfectly generated videos. Recently, vision-language models (VLMs) have been leveraged to validate video quality, but they have limitations in distinguishing physically accurate videos and, even then, cannot directly evaluate the generated actions themselves. To tackle this issue, we introduce RoboCurate, a novel synthetic robot data generation framework that evaluates and filters the quality of annotated actions by comparing them with simulation replay. Specifically, RoboCurate replays the predicted actions in a simulator and assesses action quality by measuring the consistency of motion between the simulator rollout and the generated video. In addition, we unlock observation diversity beyond the available dataset via image-to-image editing and apply action-preserving video-to-video transfer to further augment appearance. We observe RoboCurate's generated data yield substantial relative improvements in success rates compared to using real data only, achieving +70.1% on GR-1 Tabletop (300 demos), +16.1% on DexMimicGen in the pre-training setup, and +179.9% in the challenging real-world ALLEX humanoid dexterous manipulation setting.