Difusión Discreta Uniforme con Trayectoria Métrica para la Generación de Videos
Uniform Discrete Diffusion with Metric Path for Video Generation
October 28, 2025
Autores: Haoge Deng, Ting Pan, Fan Zhang, Yang Liu, Zhuoyan Luo, Yufeng Cui, Wenxuan Wang, Chunhua Shen, Shiguang Shan, Zhaoxiang Zhang, Xinlong Wang
cs.AI
Resumen
La generación de vídeo en espacio continuo ha avanzado rápidamente, mientras que los enfoques discretos se quedan rezagados debido a la acumulación de errores y la inconsistencia en contextos largos. En este trabajo, revisitamos el modelado generativo discreto y presentamos **URSA** (Uniform discRete diffuSion with metric pAth), un marco de trabajo sencillo pero potente que salva la brecha con los enfoques continuos para la generación escalable de vídeo. En esencia, URSA formula la tarea de generación de vídeo como un refinamiento global iterativo de tokens espacio-temporales discretos. Integra dos diseños clave: una **Trayectoria Métrica Linealizada** y un mecanismo de **Desplazamiento de Paso de Tiempo Dependiente de la Resolución**. Estos diseños permiten a URSA escalar eficientemente a la síntesis de imágenes de alta resolución y a la generación de vídeo de larga duración, requiriendo significativamente menos pasos de inferencia. Adicionalmente, introducimos una estrategia de ajuste fino temporal asíncrono que unifica diversas tareas dentro de un único modelo, incluyendo interpolación y generación de imagen a vídeo. Experimentos exhaustivos en benchmarks desafiantes de generación de vídeo e imagen demuestran que URSA supera consistentemente a los métodos discretos existentes y logra un rendimiento comparable a los métodos de difusión continuos de última generación. El código y los modelos están disponibles en https://github.com/baaivision/URSA.
English
Continuous-space video generation has advanced rapidly, while discrete
approaches lag behind due to error accumulation and long-context inconsistency.
In this work, we revisit discrete generative modeling and present Uniform
discRete diffuSion with metric pAth (URSA), a simple yet powerful framework
that bridges the gap with continuous approaches for the scalable video
generation. At its core, URSA formulates the video generation task as an
iterative global refinement of discrete spatiotemporal tokens. It integrates
two key designs: a Linearized Metric Path and a Resolution-dependent Timestep
Shifting mechanism. These designs enable URSA to scale efficiently to
high-resolution image synthesis and long-duration video generation, while
requiring significantly fewer inference steps. Additionally, we introduce an
asynchronous temporal fine-tuning strategy that unifies versatile tasks within
a single model, including interpolation and image-to-video generation.
Extensive experiments on challenging video and image generation benchmarks
demonstrate that URSA consistently outperforms existing discrete methods and
achieves performance comparable to state-of-the-art continuous diffusion
methods. Code and models are available at https://github.com/baaivision/URSA