ORV: 4D Генерация видео роботов с акцентом на оккупацию

Аннотация

Получение данных для симуляции роботов в реальных условиях с помощью телеоперации является крайне трудоемким и затратным по времени процессом. В последнее время генеративные модели, управляемые действиями, получили широкое распространение в обучении и симуляции роботов, поскольку они устраняют проблемы безопасности и снижают затраты на обслуживание. Однако последовательности действий, используемые в этих методах, часто приводят к ограниченной точности управления и слабой обобщающей способности из-за их глобально грубого согласования. Для устранения этих ограничений мы предлагаем ORV — фреймворк для генерации видео роботов, основанный на концепции семантической оккупации, который использует 4D-последовательности семантической оккупации как детализированное представление для обеспечения более точной семантической и геометрической ориентации при генерации видео. Благодаря использованию представлений на основе оккупации, ORV позволяет бесшовно преобразовывать данные симуляции в фотореалистичные видео роботов, обеспечивая высокую временную согласованность и точную управляемость. Кроме того, наш фреймворк поддерживает одновременную генерацию многовидовых видео операций захвата роботом — важную возможность для последующих задач обучения роботов. Результаты многочисленных экспериментов показывают, что ORV стабильно превосходит существующие базовые методы на различных наборах данных и подзадачах. Демо, код и модель доступны по ссылке: https://orangesodahub.github.io/ORV.

English

Acquiring real-world robotic simulation data through teleoperation is notoriously time-consuming and labor-intensive. Recently, action-driven generative models have gained widespread adoption in robot learning and simulation, as they eliminate safety concerns and reduce maintenance efforts. However, the action sequences used in these methods often result in limited control precision and poor generalization due to their globally coarse alignment. To address these limitations, we propose ORV, an Occupancy-centric Robot Video generation framework, which utilizes 4D semantic occupancy sequences as a fine-grained representation to provide more accurate semantic and geometric guidance for video generation. By leveraging occupancy-based representations, ORV enables seamless translation of simulation data into photorealistic robot videos, while ensuring high temporal consistency and precise controllability. Furthermore, our framework supports the simultaneous generation of multi-view videos of robot gripping operations - an important capability for downstream robotic learning tasks. Extensive experimental results demonstrate that ORV consistently outperforms existing baseline methods across various datasets and sub-tasks. Demo, Code and Model: https://orangesodahub.github.io/ORV

ORV: 4D Генерация видео роботов с акцентом на оккупацию

ORV: 4D Occupancy-centric Robot Video Generation

Аннотация

Support