DynaVid: Aprendizaje para Generar Vídeos de Alta Dinámica mediante Datos de Movimiento Sintéticos

Resumen

A pesar de los avances recientes, los modelos de difusión de vídeo aún tienen dificultades para sintetizar vídeos realistas que impliquen movimientos altamente dinámicos o que requieran una controlabilidad del movimiento de grano fino. Una limitación central reside en la escasez de tales ejemplos en los conjuntos de datos de entrenamiento de uso común. Para abordar este problema, presentamos DynaVid, un marco de síntesis de vídeo que aprovecha los datos de movimiento sintético durante el entrenamiento, representados como flujo óptico y renderizados mediante pipelines de gráficos por computadora. Este enfoque ofrece dos ventajas clave. En primer lugar, el movimiento sintético ofrece patrones de movimiento diversos y señales de control precisas que son difíciles de obtener a partir de datos reales. En segundo lugar, a diferencia de los vídeos renderizados con apariencias artificiales, el flujo óptico renderizado codifica únicamente movimiento y está desacoplado de la apariencia, impidiendo así que los modelos reproduzcan el aspecto antinatural de los vídeos sintéticos. Basándonos en esta idea, DynaVid adopta un marco de generación en dos etapas: un generador de movimiento sintetiza primero el movimiento, y luego un generador de vídeo guiado por movimiento produce los fotogramas del vídeo condicionados por dicho movimiento. Esta formulación desacoplada permite al modelo aprender patrones de movimiento dinámicos a partir de datos sintéticos, preservando al mismo tiempo el realismo visual de los vídeos del mundo real. Validamos nuestro marco en dos escenarios desafiantes: la generación de movimientos humanos vigorosos y el control extremo del movimiento de cámara, áreas donde los conjuntos de datos existentes son particularmente limitados. Experimentos exhaustivos demuestran que DynaVid mejora el realismo y la controlabilidad en la generación de movimiento dinámico y en el control del movimiento de cámara.

English

Despite recent progress, video diffusion models still struggle to synthesize realistic videos involving highly dynamic motions or requiring fine-grained motion controllability. A central limitation lies in the scarcity of such examples in commonly used training datasets. To address this, we introduce DynaVid, a video synthesis framework that leverages synthetic motion data in training, which is represented as optical flow and rendered using computer graphics pipelines. This approach offers two key advantages. First, synthetic motion offers diverse motion patterns and precise control signals that are difficult to obtain from real data. Second, unlike rendered videos with artificial appearances, rendered optical flow encodes only motion and is decoupled from appearance, thereby preventing models from reproducing the unnatural look of synthetic videos. Building on this idea, DynaVid adopts a two-stage generation framework: a motion generator first synthesizes motion, and then a motion-guided video generator produces video frames conditioned on that motion. This decoupled formulation enables the model to learn dynamic motion patterns from synthetic data while preserving visual realism from real-world videos. We validate our framework on two challenging scenarios, vigorous human motion generation and extreme camera motion control, where existing datasets are particularly limited. Extensive experiments demonstrate that DynaVid improves the realism and controllability in dynamic motion generation and camera motion control.

DynaVid: Aprendizaje para Generar Vídeos de Alta Dinámica mediante Datos de Movimiento Sintéticos

DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

Resumen

Support