ORV: 4D Occupancy-gericht Videogeneratie voor Robots
ORV: 4D Occupancy-centric Robot Video Generation
June 3, 2025
Auteurs: Xiuyu Yang, Bohan Li, Shaocong Xu, Nan Wang, Chongjie Ye, Zhaoxi Chen, Minghan Qin, Yikang Ding, Xin Jin, Hang Zhao, Hao Zhao
cs.AI
Samenvatting
Het verkrijgen van real-world robot-simulatiedata via teleoperatie is berucht tijdrovend en arbeidsintensief. Onlangs hebben actiegedreven generatieve modellen brede acceptatie gevonden in robotleren en -simulatie, omdat ze veiligheidsproblemen elimineren en onderhoudsinspanningen verminderen. De actiesequenties die in deze methoden worden gebruikt, resulteren echter vaak in beperkte controleprecisie en slechte generalisatie vanwege hun globaal grove uitlijning. Om deze beperkingen aan te pakken, stellen we ORV voor, een Occupancy-centric Robot Video-generatieframework, dat 4D semantische occupancy-sequenties gebruikt als een fijnmazige representatie om nauwkeurigere semantische en geometrische begeleiding te bieden voor videogeneratie. Door gebruik te maken van occupancy-gebaseerde representaties, maakt ORV een naadloze vertaling van simulatiedata naar fotorealistische robotvideo's mogelijk, terwijl hoge temporele consistentie en precieze bestuurbaarheid worden gegarandeerd. Bovendien ondersteunt ons framework de gelijktijdige generatie van multi-view video's van robotgrijpbewerkingen - een belangrijke capaciteit voor downstream robotleertaken. Uitgebreide experimentele resultaten tonen aan dat ORV consistent beter presteert dan bestaande baseline-methoden over verschillende datasets en sub-taken. Demo, Code en Model: https://orangesodahub.github.io/ORV
English
Acquiring real-world robotic simulation data through teleoperation is
notoriously time-consuming and labor-intensive. Recently, action-driven
generative models have gained widespread adoption in robot learning and
simulation, as they eliminate safety concerns and reduce maintenance efforts.
However, the action sequences used in these methods often result in limited
control precision and poor generalization due to their globally coarse
alignment. To address these limitations, we propose ORV, an Occupancy-centric
Robot Video generation framework, which utilizes 4D semantic occupancy
sequences as a fine-grained representation to provide more accurate semantic
and geometric guidance for video generation. By leveraging occupancy-based
representations, ORV enables seamless translation of simulation data into
photorealistic robot videos, while ensuring high temporal consistency and
precise controllability. Furthermore, our framework supports the simultaneous
generation of multi-view videos of robot gripping operations - an important
capability for downstream robotic learning tasks. Extensive experimental
results demonstrate that ORV consistently outperforms existing baseline methods
across various datasets and sub-tasks. Demo, Code and Model:
https://orangesodahub.github.io/ORV