DynaVid : Apprendre à générer des vidéos hautement dynamiques en utilisant des données de mouvement synthétiques

Résumé

Malgré les progrès récents, les modèles de diffusion vidéo peinent encore à synthétiser des vidéos réalistes impliquant des mouvements hautement dynamiques ou nécessitant une contrôlabilité fine du mouvement. Une limitation centrale réside dans la rareté de tels exemples dans les jeux de données d'entraînement couramment utilisés. Pour y remédier, nous présentons DynaVid, un cadre de synthèse vidéo qui exploite des données de mouvement synthétiques lors de l'entraînement, représentées sous forme de flux optique et rendues à l'aide de pipelines de synthèse d'images. Cette approche présente deux avantages clés. Premièrement, le mouvement synthétique offre des schémas de mouvement diversifiés et des signaux de contrôle précis difficiles à obtenir à partir de données réelles. Deuxièmement, contrairement aux vidéos rendues ayant des apparences artificielles, le flux optique rendu encode uniquement le mouvement et est découplé de l'apparence, empêchant ainsi les modèles de reproduire l'aspect non naturel des vidéos synthétiques. Sur cette base, DynaVid adopte un cadre de génération en deux étapes : un générateur de mouvement synthétise d'abord le mouvement, puis un générateur vidéo guidé par le mouvement produit les images vidéo conditionnées par ce mouvement. Cette formulation découplée permet au modèle d'apprendre des schémas de mouvement dynamiques à partir de données synthétiques tout en préservant le réalisme visuel des vidéos du monde réel. Nous validons notre cadre sur deux scénarios difficiles, la génération de mouvements humains vigoureux et le contrôle extrême du mouvement de caméra, où les jeux de données existants sont particulièrement limités. Des expériences approfondies démontrent que DynaVid améliore le réalisme et la contrôlabilité dans la génération de mouvements dynamiques et le contrôle du mouvement de la caméra.

English

Despite recent progress, video diffusion models still struggle to synthesize realistic videos involving highly dynamic motions or requiring fine-grained motion controllability. A central limitation lies in the scarcity of such examples in commonly used training datasets. To address this, we introduce DynaVid, a video synthesis framework that leverages synthetic motion data in training, which is represented as optical flow and rendered using computer graphics pipelines. This approach offers two key advantages. First, synthetic motion offers diverse motion patterns and precise control signals that are difficult to obtain from real data. Second, unlike rendered videos with artificial appearances, rendered optical flow encodes only motion and is decoupled from appearance, thereby preventing models from reproducing the unnatural look of synthetic videos. Building on this idea, DynaVid adopts a two-stage generation framework: a motion generator first synthesizes motion, and then a motion-guided video generator produces video frames conditioned on that motion. This decoupled formulation enables the model to learn dynamic motion patterns from synthetic data while preserving visual realism from real-world videos. We validate our framework on two challenging scenarios, vigorous human motion generation and extreme camera motion control, where existing datasets are particularly limited. Extensive experiments demonstrate that DynaVid improves the realism and controllability in dynamic motion generation and camera motion control.

DynaVid : Apprendre à générer des vidéos hautement dynamiques en utilisant des données de mouvement synthétiques

DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

Résumé

Support