ChatPaper.aiChatPaper

Dream2Flow: 3D 객체 흐름을 통한 비디오 생성과 오픈 월드 조작의 연결

Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow

December 31, 2025
저자: Karthik Dharmarajan, Wenlong Huang, Jiajun Wu, Li Fei-Fei, Ruohan Zhang
cs.AI

초록

생성 비디오 모델링은 개방형 환경 조작을 위한 합리적인 물리적 상호작용을 제로샷 추론하는 매력적인 도구로 부상했습니다. 그러나 이러한 인간 주도 동작을 로봇 시스템이 요구하는 저수준 동작으로 변환하는 것은 여전히 과제로 남아 있습니다. 우리는 초기 이미지와 작업 지시가 주어졌을 때 이러한 모델이 합리적인 객체 운동을 합성하는 데 탁월하다는 점에 주목했습니다. 이에 본 논문에서는 3D 객체 흐름을 중간 표현으로 활용하여 비디오 생성과 로봇 제어를 연결하는 Dream2Flow 프레임워크를 소개합니다. 우리의 방법은 생성된 비디오에서 3D 객체 운동을 재구성하고 조작을 객체 궤적 추적 문제로 공식화합니다. 상태 변화를 이를 실현하는 구동기와 분리함으로써 Dream2Flow는 구현체 간격 문제를 극복하고 사전 학습된 비디오 모델의 제로샷 지도를 통해 강체, 관절체, 변형체, 입상체 등 다양한 범주의 객체를 조작할 수 있습니다. 궤적 최적화 또는 강화 학습을 통해 Dream2Flow는 재구성된 3D 객체 흐름을 작업별 데모 없이도 실행 가능한 저수준 명령으로 변환합니다. 시뮬레이션과 실제 환경 실험을 통해 3D 객체 흐름이 비디오 생성 모델을 개방형 환경 로봇 조작에 적용하기 위한 일반적이고 확장 가능한 인터페이스임을 입증했습니다. 비디오 및 시각화 자료는 https://dream2flow.github.io/에서 확인할 수 있습니다.
English
Generative video modeling has emerged as a compelling tool to zero-shot reason about plausible physical interactions for open-world manipulation. Yet, it remains a challenge to translate such human-led motions into the low-level actions demanded by robotic systems. We observe that given an initial image and task instruction, these models excel at synthesizing sensible object motions. Thus, we introduce Dream2Flow, a framework that bridges video generation and robotic control through 3D object flow as an intermediate representation. Our method reconstructs 3D object motions from generated videos and formulates manipulation as object trajectory tracking. By separating the state changes from the actuators that realize those changes, Dream2Flow overcomes the embodiment gap and enables zero-shot guidance from pre-trained video models to manipulate objects of diverse categories-including rigid, articulated, deformable, and granular. Through trajectory optimization or reinforcement learning, Dream2Flow converts reconstructed 3D object flow into executable low-level commands without task-specific demonstrations. Simulation and real-world experiments highlight 3D object flow as a general and scalable interface for adapting video generation models to open-world robotic manipulation. Videos and visualizations are available at https://dream2flow.github.io/.
PDF12January 3, 2026