RoboCurate: Nutzung von Vielfalt durch aktionsverifizierte neuronale Trajektorien für das Robotiklernen
RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning
February 21, 2026
papers.authors: Seungku Kim, Suhyeok Jang, Byungjun Yoon, Dongyoung Kim, John Won, Jinwoo Shin
cs.AI
papers.abstract
Von videogenerierenden Modellen erzeugte synthetische Daten haben sich als skalierbare Pipeline für das Robotik-Lernen als vielversprechend erwiesen, leiden jedoch oft unter inkonsistenter Aktionsqualität aufgrund von unvollkommen generierten Videos. Kürzlich wurden Vision-Language-Models (VLMs) zur Validierung der Videoqualität eingesetzt, doch sie haben Limitationen bei der Unterscheidung physikalisch korrekter Videos und können selbst dann die generierten Aktionen nicht direkt bewerten. Um dieses Problem zu lösen, stellen wir RoboCurate vor, ein neuartiges Framework zur Generierung synthetischer Roboterdaten, das die Qualität annotierter Aktionen durch Vergleich mit einer Simulationswiedergabe evaluiert und filtert. Konkret spielt RoboCurate die vorhergesagten Aktionen in einem Simulator ab und bewertet die Aktionsqualität, indem es die Bewegungskonsistenz zwischen der Simulationsausführung und dem generierten Video misst. Zusätzlich erschließen wir Beobachtungsvielfalt über den verfügbaren Datensatz hinaus via Bild-zu-Bild-Bearbeitung und wenden aktionserhaltenden Video-zu-Video-Transfer an, um die Darstellung weiter zu augmentieren. Wir beobachten, dass die von RoboCurate generierten Daten substantielle relative Verbesserungen der Erfolgsraten im Vergleich zur alleinigen Verwendung realer Daten erzielen: +70,1 % bei GR-1 Tabletop (300 Demonstrationen), +16,1 % bei DexMimicGen im Pre-Training-Setup und +179,9 % in der anspruchsvallen realen ALLEX-Humanoid-Dexterous-Manipulation-Umgebung.
English
Synthetic data generated by video generative models has shown promise for robot learning as a scalable pipeline, but it often suffers from inconsistent action quality due to imperfectly generated videos. Recently, vision-language models (VLMs) have been leveraged to validate video quality, but they have limitations in distinguishing physically accurate videos and, even then, cannot directly evaluate the generated actions themselves. To tackle this issue, we introduce RoboCurate, a novel synthetic robot data generation framework that evaluates and filters the quality of annotated actions by comparing them with simulation replay. Specifically, RoboCurate replays the predicted actions in a simulator and assesses action quality by measuring the consistency of motion between the simulator rollout and the generated video. In addition, we unlock observation diversity beyond the available dataset via image-to-image editing and apply action-preserving video-to-video transfer to further augment appearance. We observe RoboCurate's generated data yield substantial relative improvements in success rates compared to using real data only, achieving +70.1% on GR-1 Tabletop (300 demos), +16.1% on DexMimicGen in the pre-training setup, and +179.9% in the challenging real-world ALLEX humanoid dexterous manipulation setting.