DynaVid: Het genereren van hoog-dynamische video's leren met behulp van synthetische bewegingsdata

Samenvatting

Ondanks recente vooruitgang worstelen videodiffusiemodellen nog steeds met het synthetiseren van realistische video's die hoogdynamische bewegingen bevatten of fijnmazige bewegingsbestuurbaarheid vereisen. Een centrale beperking ligt in de schaarste van dergelijke voorbeelden in veelgebruikte trainingsdatasets. Om dit aan te pakken, introduceren we DynaVid, een videosynthese-framework dat gebruikmaakt van synthetische bewegingsdata tijdens de training, welke wordt gerepresenteerd als optische stroming en gerenderd met behulp van computer graphics-pipelines. Deze aanpak biedt twee belangrijke voordelen. Ten eerste biedt synthetische beweging diverse bewegingspatronen en precieze controle-signalen die moeilijk uit echte data te verkrijgen zijn. Ten tweede, in tegenstelling tot gerenderde video's met kunstmatige aanzichten, codeert gerenderde optische stroming alleen beweging en is deze ontkoppeld van het aanzicht, waardoor wordt voorkomen dat modellen het onnatuurlijke uiterlijk van synthetische video's reproduceren. Voortbouwend op dit idee hanteert DynaVid een tweestaps-generatieframework: een bewegingsgenerator synthetiseert eerst de beweging, waarna een beweging-gestuurde videogenerator videoframes produceert geconditioneerd op die beweging. Deze ontkoppelde formulering stelt het model in staat om dynamische bewegingspatronen aan te leren van synthetische data, terwijl de visuele realiteit van real-world video's behouden blijft. We valideren ons framework op twee uitdagende scenario's: krachtige menselijke bewegingsgeneratie en extreme camerabewegingscontrole, waar bestaande datasets bijzonder beperkt zijn. Uitgebreide experimenten tonen aan dat DynaVid de realiteit en bestuurbaarheid verbetert bij dynamische bewegingsgeneratie en camerabewegingscontrole.

English

Despite recent progress, video diffusion models still struggle to synthesize realistic videos involving highly dynamic motions or requiring fine-grained motion controllability. A central limitation lies in the scarcity of such examples in commonly used training datasets. To address this, we introduce DynaVid, a video synthesis framework that leverages synthetic motion data in training, which is represented as optical flow and rendered using computer graphics pipelines. This approach offers two key advantages. First, synthetic motion offers diverse motion patterns and precise control signals that are difficult to obtain from real data. Second, unlike rendered videos with artificial appearances, rendered optical flow encodes only motion and is decoupled from appearance, thereby preventing models from reproducing the unnatural look of synthetic videos. Building on this idea, DynaVid adopts a two-stage generation framework: a motion generator first synthesizes motion, and then a motion-guided video generator produces video frames conditioned on that motion. This decoupled formulation enables the model to learn dynamic motion patterns from synthetic data while preserving visual realism from real-world videos. We validate our framework on two challenging scenarios, vigorous human motion generation and extreme camera motion control, where existing datasets are particularly limited. Extensive experiments demonstrate that DynaVid improves the realism and controllability in dynamic motion generation and camera motion control.

DynaVid: Het genereren van hoog-dynamische video's leren met behulp van synthetische bewegingsdata

DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

Samenvatting

Support