ChatPaper.aiChatPaper

ORV: 4D Occupancy-gericht Videogeneratie voor Robots

ORV: 4D Occupancy-centric Robot Video Generation

June 3, 2025
Auteurs: Xiuyu Yang, Bohan Li, Shaocong Xu, Nan Wang, Chongjie Ye, Zhaoxi Chen, Minghan Qin, Yikang Ding, Xin Jin, Hang Zhao, Hao Zhao
cs.AI

Samenvatting

Het verkrijgen van real-world robot-simulatiedata via teleoperatie is berucht tijdrovend en arbeidsintensief. Onlangs hebben actiegedreven generatieve modellen brede acceptatie gevonden in robotleren en -simulatie, omdat ze veiligheidsproblemen elimineren en onderhoudsinspanningen verminderen. De actiesequenties die in deze methoden worden gebruikt, resulteren echter vaak in beperkte controleprecisie en slechte generalisatie vanwege hun globaal grove uitlijning. Om deze beperkingen aan te pakken, stellen we ORV voor, een Occupancy-centric Robot Video-generatieframework, dat 4D semantische occupancy-sequenties gebruikt als een fijnmazige representatie om nauwkeurigere semantische en geometrische begeleiding te bieden voor videogeneratie. Door gebruik te maken van occupancy-gebaseerde representaties, maakt ORV een naadloze vertaling van simulatiedata naar fotorealistische robotvideo's mogelijk, terwijl hoge temporele consistentie en precieze bestuurbaarheid worden gegarandeerd. Bovendien ondersteunt ons framework de gelijktijdige generatie van multi-view video's van robotgrijpbewerkingen - een belangrijke capaciteit voor downstream robotleertaken. Uitgebreide experimentele resultaten tonen aan dat ORV consistent beter presteert dan bestaande baseline-methoden over verschillende datasets en sub-taken. Demo, Code en Model: https://orangesodahub.github.io/ORV
English
Acquiring real-world robotic simulation data through teleoperation is notoriously time-consuming and labor-intensive. Recently, action-driven generative models have gained widespread adoption in robot learning and simulation, as they eliminate safety concerns and reduce maintenance efforts. However, the action sequences used in these methods often result in limited control precision and poor generalization due to their globally coarse alignment. To address these limitations, we propose ORV, an Occupancy-centric Robot Video generation framework, which utilizes 4D semantic occupancy sequences as a fine-grained representation to provide more accurate semantic and geometric guidance for video generation. By leveraging occupancy-based representations, ORV enables seamless translation of simulation data into photorealistic robot videos, while ensuring high temporal consistency and precise controllability. Furthermore, our framework supports the simultaneous generation of multi-view videos of robot gripping operations - an important capability for downstream robotic learning tasks. Extensive experimental results demonstrate that ORV consistently outperforms existing baseline methods across various datasets and sub-tasks. Demo, Code and Model: https://orangesodahub.github.io/ORV
PDF62June 4, 2025