ChatPaper.aiChatPaper

DynaVid: 합성 모션 데이터를 활용한 고동적 비디오 생성 학습

DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

April 2, 2026
저자: Wonjoon Jin, Jiyun Won, Janghyeok Han, Qi Dai, Chong Luo, Seung-Hwan Baek, Sunghyun Cho
cs.AI

초록

최근의 발전에도 불구하고, 비디오 확산 모델은 여전히 높은 동적 모션을 포함하거나 세밀한 모션 제어성을 요구하는 현실적인 비디오 합성에 어려움을 겪고 있습니다. 핵심적인 한계는 일반적으로 사용되는 훈련 데이터셋에서 이러한 예시가 부족하다는 점에 있습니다. 이를 해결하기 위해 우리는 합성 모션 데이터를 활용하는 비디오 합성 프레임워크인 DynaVid를 소개합니다. 이 데이터는 광학 흐름으로 표현되며 컴퓨터 그래픽스 파이프라인을 사용하여 렌더링됩니다. 이 접근법은 두 가지 주요 이점을 제공합니다. 첫째, 합성 모션은 실제 데이터에서 얻기 어려운 다양한 모션 패턴과 정밀한 제어 신호를 제공합니다. 둘째, 인공적인 외관을 가진 렌더링된 비디오와 달리, 렌더링된 광학 흐름은 모션만을 인코딩하며 외관과 분리되어 모델이 합성 비디오의 비자연스러운 느낌을 재현하는 것을 방지합니다. 이 아이디어를 바탕으로 DynaVid는 두 단계 생성 프레임워크를 채택합니다: 모션 생성기가 먼저 모션을 합성한 다음, 모션 기반 비디오 생성기가 해당 모션을 조건으로 비디오 프레임을 생성합니다. 이 분리된 구성은 모델이 합성 데이터로부터 동적 모션 패턴을 학습하면서도 실제 세계 비디오의 시각적 현실감을 유지할 수 있게 합니다. 우리는 이 프레임워크를 기존 데이터셋이 특히 제한적인 두 가지 도전적인 시나리오, 즉 격렬한 인간 모션 생성과 극단적인 카메라 모션 제어에서 검증합니다. 광범위한 실험을 통해 DynaVid가 동적 모션 생성 및 카메라 모션 제어에서 현실성과 제어 가능성을 향상시킨다는 것을 입증합니다.
English
Despite recent progress, video diffusion models still struggle to synthesize realistic videos involving highly dynamic motions or requiring fine-grained motion controllability. A central limitation lies in the scarcity of such examples in commonly used training datasets. To address this, we introduce DynaVid, a video synthesis framework that leverages synthetic motion data in training, which is represented as optical flow and rendered using computer graphics pipelines. This approach offers two key advantages. First, synthetic motion offers diverse motion patterns and precise control signals that are difficult to obtain from real data. Second, unlike rendered videos with artificial appearances, rendered optical flow encodes only motion and is decoupled from appearance, thereby preventing models from reproducing the unnatural look of synthetic videos. Building on this idea, DynaVid adopts a two-stage generation framework: a motion generator first synthesizes motion, and then a motion-guided video generator produces video frames conditioned on that motion. This decoupled formulation enables the model to learn dynamic motion patterns from synthetic data while preserving visual realism from real-world videos. We validate our framework on two challenging scenarios, vigorous human motion generation and extreme camera motion control, where existing datasets are particularly limited. Extensive experiments demonstrate that DynaVid improves the realism and controllability in dynamic motion generation and camera motion control.
PDF31April 4, 2026