DynaVid: Aprendendo a Gerar Vídeos Altamente Dinâmicos usando Dados de Movimento Sintéticos

Resumo

Apesar dos recentes avanços, os modelos de difusão para vídeo ainda lutam para sintetizar vídeos realistas que envolvam movimentos altamente dinâmicos ou que exijam uma controlabilidade de movimento de alto nível. Uma limitação central reside na escassez de tais exemplos nos conjuntos de dados de treinamento comumente utilizados. Para resolver isso, apresentamos o DynaVid, uma estrutura de síntese de vídeo que aproveita dados de movimento sintéticos no treinamento, os quais são representados como fluxo óptico e renderizados usando *pipelines* de computação gráfica. Esta abordagem oferece duas vantagens principais. Primeiro, o movimento sintético oferece padrões de movimento diversificados e sinais de controle precisos que são difíceis de obter a partir de dados reais. Segundo, ao contrário de vídeos renderizados com aparências artificiais, o fluxo óptico renderizado codifica apenas o movimento e está desacoplado da aparência, impedindo assim que os modelos reproduzam a aparência não natural dos vídeos sintéticos. Com base nesta ideia, o DynaVid adota uma estrutura de geração em dois estágios: um gerador de movimento sintetiza primeiro o movimento, e depois um gerador de vídeo guiado por movimento produz os *frames* do vídeo condicionados a esse movimento. Esta formulação desacoplada permite que o modelo aprenda padrões de movimento dinâmicos a partir de dados sintéticos, preservando ao mesmo tempo o realismo visual de vídeos do mundo real. Validamos a nossa estrutura em dois cenários desafiadores, geração de movimento humano vigoroso e controle extremo de movimento de câmera, onde os conjuntos de dados existentes são particularmente limitados. Experimentos extensivos demonstram que o DynaVid melhora o realismo e a controlabilidade na geração de movimento dinâmico e no controle de movimento de câmera.

English

Despite recent progress, video diffusion models still struggle to synthesize realistic videos involving highly dynamic motions or requiring fine-grained motion controllability. A central limitation lies in the scarcity of such examples in commonly used training datasets. To address this, we introduce DynaVid, a video synthesis framework that leverages synthetic motion data in training, which is represented as optical flow and rendered using computer graphics pipelines. This approach offers two key advantages. First, synthetic motion offers diverse motion patterns and precise control signals that are difficult to obtain from real data. Second, unlike rendered videos with artificial appearances, rendered optical flow encodes only motion and is decoupled from appearance, thereby preventing models from reproducing the unnatural look of synthetic videos. Building on this idea, DynaVid adopts a two-stage generation framework: a motion generator first synthesizes motion, and then a motion-guided video generator produces video frames conditioned on that motion. This decoupled formulation enables the model to learn dynamic motion patterns from synthetic data while preserving visual realism from real-world videos. We validate our framework on two challenging scenarios, vigorous human motion generation and extreme camera motion control, where existing datasets are particularly limited. Extensive experiments demonstrate that DynaVid improves the realism and controllability in dynamic motion generation and camera motion control.

DynaVid: Aprendendo a Gerar Vídeos Altamente Dinâmicos usando Dados de Movimento Sintéticos

DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

Resumo

Support