ORV: 4D Генерация видео роботов с акцентом на оккупацию
ORV: 4D Occupancy-centric Robot Video Generation
June 3, 2025
Авторы: Xiuyu Yang, Bohan Li, Shaocong Xu, Nan Wang, Chongjie Ye, Zhaoxi Chen, Minghan Qin, Yikang Ding, Xin Jin, Hang Zhao, Hao Zhao
cs.AI
Аннотация
Получение данных для симуляции роботов в реальных условиях с помощью телеоперации является крайне трудоемким и затратным по времени процессом. В последнее время генеративные модели, управляемые действиями, получили широкое распространение в обучении и симуляции роботов, поскольку они устраняют проблемы безопасности и снижают затраты на обслуживание. Однако последовательности действий, используемые в этих методах, часто приводят к ограниченной точности управления и слабой обобщающей способности из-за их глобально грубого согласования. Для устранения этих ограничений мы предлагаем ORV — фреймворк для генерации видео роботов, основанный на концепции семантической оккупации, который использует 4D-последовательности семантической оккупации как детализированное представление для обеспечения более точной семантической и геометрической ориентации при генерации видео. Благодаря использованию представлений на основе оккупации, ORV позволяет бесшовно преобразовывать данные симуляции в фотореалистичные видео роботов, обеспечивая высокую временную согласованность и точную управляемость. Кроме того, наш фреймворк поддерживает одновременную генерацию многовидовых видео операций захвата роботом — важную возможность для последующих задач обучения роботов. Результаты многочисленных экспериментов показывают, что ORV стабильно превосходит существующие базовые методы на различных наборах данных и подзадачах. Демо, код и модель доступны по ссылке: https://orangesodahub.github.io/ORV.
English
Acquiring real-world robotic simulation data through teleoperation is
notoriously time-consuming and labor-intensive. Recently, action-driven
generative models have gained widespread adoption in robot learning and
simulation, as they eliminate safety concerns and reduce maintenance efforts.
However, the action sequences used in these methods often result in limited
control precision and poor generalization due to their globally coarse
alignment. To address these limitations, we propose ORV, an Occupancy-centric
Robot Video generation framework, which utilizes 4D semantic occupancy
sequences as a fine-grained representation to provide more accurate semantic
and geometric guidance for video generation. By leveraging occupancy-based
representations, ORV enables seamless translation of simulation data into
photorealistic robot videos, while ensuring high temporal consistency and
precise controllability. Furthermore, our framework supports the simultaneous
generation of multi-view videos of robot gripping operations - an important
capability for downstream robotic learning tasks. Extensive experimental
results demonstrate that ORV consistently outperforms existing baseline methods
across various datasets and sub-tasks. Demo, Code and Model:
https://orangesodahub.github.io/ORV