Dream2Flow: Объединение генерации видео и манипуляций в открытом мире с помощью 3D-потока объектов
Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow
December 31, 2025
Авторы: Karthik Dharmarajan, Wenlong Huang, Jiajun Wu, Li Fei-Fei, Ruohan Zhang
cs.AI
Аннотация
Генеративное моделирование видео стало мощным инструментом для zero-shot прогнозирования правдоподобных физических взаимодействий в задачах манипулирования в открытом мире. Однако преобразование таких движений, заданных человеком, в низкоуровневые действия, требуемые роботизированными системами, остается сложной задачей. Мы наблюдаем, что при заданном исходном изображении и инструкции к задаче эти модели успешно синтезируют осмысленные движения объектов. Таким образом, мы представляем Dream2Flow — фреймворк, который связывает генерацию видео и роботизированное управление через 3D-поток объектов в качестве промежуточного представления. Наш метод восстанавливает 3D-движения объектов из сгенерированных видео и формулирует манипуляцию как отслеживание траектории объекта. Разделяя изменения состояния от исполнительных механизмов, которые реализуют эти изменения, Dream2Flow преодолевает разрыв воплощения и позволяет использовать zero-shot-руководство от предварительно обученных видео-моделей для манипулирования объектами разнообразных категорий, включая жесткие, сочлененные, деформируемые и сыпучие. С помощью оптимизации траекторий или обучения с подкреплением Dream2Flow преобразует восстановленный 3D-поток объектов в исполняемые низкоуровневые команды без демонстраций для конкретных задач. Эксперименты в симуляции и реальном мире демонстрируют, что 3D-поток объектов является универсальным и масштабируемым интерфейсом для адаптации моделей генерации видео к роботизированному манипулированию в открытом мире. Видео и визуализации доступны по адресу https://dream2flow.github.io/.
English
Generative video modeling has emerged as a compelling tool to zero-shot reason about plausible physical interactions for open-world manipulation. Yet, it remains a challenge to translate such human-led motions into the low-level actions demanded by robotic systems. We observe that given an initial image and task instruction, these models excel at synthesizing sensible object motions. Thus, we introduce Dream2Flow, a framework that bridges video generation and robotic control through 3D object flow as an intermediate representation. Our method reconstructs 3D object motions from generated videos and formulates manipulation as object trajectory tracking. By separating the state changes from the actuators that realize those changes, Dream2Flow overcomes the embodiment gap and enables zero-shot guidance from pre-trained video models to manipulate objects of diverse categories-including rigid, articulated, deformable, and granular. Through trajectory optimization or reinforcement learning, Dream2Flow converts reconstructed 3D object flow into executable low-level commands without task-specific demonstrations. Simulation and real-world experiments highlight 3D object flow as a general and scalable interface for adapting video generation models to open-world robotic manipulation. Videos and visualizations are available at https://dream2flow.github.io/.