DynaVid: Erzeugung hochdynamischer Videos durch Lernen mit synthetischen Bewegungsdaten

Zusammenfassung

Trotz jüngster Fortschritte haben Video-Diffusionsmodelle nach wie vor Schwierigkeiten, realistische Videos mit hochdynamischen Bewegungen oder fein abgestufter Bewegungskontrollierbarkeit zu synthetisieren. Eine zentrale Einschränkung liegt in der Knappheit solcher Beispiele in gängigen Trainingsdatensätzen. Um dies zu adressieren, stellen wir DynaVid vor, ein Videosynthese-Framework, das synthetische Bewegungsdaten im Training nutzt, die als optischer Fluss repräsentiert und mittels Computergrafik-Pipelines gerendert werden. Dieser Ansatz bietet zwei wesentliche Vorteile. Erstens bietet synthetische Bewegung vielfältige Bewegungsmuster und präzise Steuersignale, die schwer aus realen Daten zu gewinnen sind. Zweitens kodiert – anders als gerenderte Videos mit künstlichen Erscheinungsbildern – gerenderter optischer Fluss nur Bewegung und ist von der Erscheinung entkoppelt, was verhindert, dass Modelle das unnatürliche Aussehen synthetischer Videos reproduzieren. Aufbauend auf dieser Idee verwendet DynaVid ein zweistufiges Generierungsframework: Ein Bewegungsgenerator synthetisiert zunächst die Bewegung, anschließend erzeugt ein bewegungsgeführter Videogenerator die Videobilder bedingt durch diese Bewegung. Diese entkoppelte Formulierung ermöglicht es dem Modell, dynamische Bewegungsmuster aus synthetischen Daten zu erlernen, während die visuelle Realitätsnähe aus realen Videos erhalten bleibt. Wir validieren unser Framework anhand zweier anspruchsvoller Szenarien, der Erzeugung lebhafter menschlicher Bewegungen und der extremen Kamerabewegungskontrolle, bei denen bestehende Datensätze besonders begrenzt sind. Umfangreiche Experimente belegen, dass DynaVid die Realitätsnähe und Kontrollierbarkeit bei der dynamischen Bewegungserzeugung und Kamerabewegungskontrolle verbessert.

English

Despite recent progress, video diffusion models still struggle to synthesize realistic videos involving highly dynamic motions or requiring fine-grained motion controllability. A central limitation lies in the scarcity of such examples in commonly used training datasets. To address this, we introduce DynaVid, a video synthesis framework that leverages synthetic motion data in training, which is represented as optical flow and rendered using computer graphics pipelines. This approach offers two key advantages. First, synthetic motion offers diverse motion patterns and precise control signals that are difficult to obtain from real data. Second, unlike rendered videos with artificial appearances, rendered optical flow encodes only motion and is decoupled from appearance, thereby preventing models from reproducing the unnatural look of synthetic videos. Building on this idea, DynaVid adopts a two-stage generation framework: a motion generator first synthesizes motion, and then a motion-guided video generator produces video frames conditioned on that motion. This decoupled formulation enables the model to learn dynamic motion patterns from synthetic data while preserving visual realism from real-world videos. We validate our framework on two challenging scenarios, vigorous human motion generation and extreme camera motion control, where existing datasets are particularly limited. Extensive experiments demonstrate that DynaVid improves the realism and controllability in dynamic motion generation and camera motion control.

DynaVid: Erzeugung hochdynamischer Videos durch Lernen mit synthetischen Bewegungsdaten

DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

Zusammenfassung

Support