DynaVid:合成モーションデータを用いた高ダイナミック映像の生成学習
DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data
April 2, 2026
著者: Wonjoon Jin, Jiyun Won, Janghyeok Han, Qi Dai, Chong Luo, Seung-Hwan Baek, Sunghyun Cho
cs.AI
要旨
近年進展が見られるものの、ビデオ拡散モデルは、高度に動的な動きを伴う現実的な映像合成や、微細な動きの制御性が要求される場面において依然として困難に直面している。中心的な課題は、一般的に使用される訓練データセットにこのような事例が不足している点にある。この問題に対処するため、我々は光学フローとして表現されコンピュータグラフィックスパイプラインでレンダリングされる合成モーションデータを訓練に活用するビデオ合成フレームワーク、DynaVidを提案する。このアプローチには2つの主要な利点がある。第一に、合成モーションは実データから得ることが困難な多様な動きパターンと精密な制御信号を提供する。第二に、人工的な外観を持つレンダリング動画とは異なり、レンダリングされた光学フローは動きのみを符号化し、外観から切り離されているため、モデルが合成動画の不自然な見た目を再現するのを防ぐ。この考え方に基づき、DynaVidは2段階の生成フレームワークを採用する:モーション生成器がまず動きを合成し、その後、動き誘導ビデオ生成器がその動きを条件としてビデオフレームを生成する。この分離された定式化により、モデルは合成データから動的な動きパターンを学習しつつ、実世界の動画から視覚的な現実性を保持することが可能となる。本フレームワークを、既存データセットが特に限られている2つの挑戦的シナリオ、激しい人体動作生成と極端なカメラ動作制御において検証する。大規模な実験により、DynaVidが動的モーション生成およびカメラ動作制御において現実性と制御性を向上させることを実証する。
English
Despite recent progress, video diffusion models still struggle to synthesize realistic videos involving highly dynamic motions or requiring fine-grained motion controllability. A central limitation lies in the scarcity of such examples in commonly used training datasets. To address this, we introduce DynaVid, a video synthesis framework that leverages synthetic motion data in training, which is represented as optical flow and rendered using computer graphics pipelines. This approach offers two key advantages. First, synthetic motion offers diverse motion patterns and precise control signals that are difficult to obtain from real data. Second, unlike rendered videos with artificial appearances, rendered optical flow encodes only motion and is decoupled from appearance, thereby preventing models from reproducing the unnatural look of synthetic videos. Building on this idea, DynaVid adopts a two-stage generation framework: a motion generator first synthesizes motion, and then a motion-guided video generator produces video frames conditioned on that motion. This decoupled formulation enables the model to learn dynamic motion patterns from synthetic data while preserving visual realism from real-world videos. We validate our framework on two challenging scenarios, vigorous human motion generation and extreme camera motion control, where existing datasets are particularly limited. Extensive experiments demonstrate that DynaVid improves the realism and controllability in dynamic motion generation and camera motion control.