Diffusion Discrète Uniforme avec Chemin Métrique pour la Génération de Vidéos
Uniform Discrete Diffusion with Metric Path for Video Generation
October 28, 2025
papers.authors: Haoge Deng, Ting Pan, Fan Zhang, Yang Liu, Zhuoyan Luo, Yufeng Cui, Wenxuan Wang, Chunhua Shen, Shiguang Shan, Zhaoxiang Zhang, Xinlong Wang
cs.AI
papers.abstract
La génération vidéo en espace continu a progressé rapidement, tandis que les approches discrètes restent à la traîne en raison de l'accumulation d'erreurs et des incohérences sur de longs contextes. Dans ce travail, nous revisitons la modélisation générative discrète et présentons Uniform discRete diffuSion with metric pAth (URSA), un cadre simple mais puissant qui comble l'écart avec les approches continues pour la génération vidéo scalable. Au cœur d'URSA se trouve la formulation de la génération vidéo comme un raffinement global itératif de tokens spatiotemporels discrets. Il intègre deux conceptions clés : un Chemin Métrique Linéarisé et un mécanisme de Décalage Temporel Dépendant de la Résolution. Ces conceptions permettent à URSA de passer efficacement à la synthèse d'images haute résolution et à la génération de vidéos de longue durée, tout en nécessitant beaucoup moins d'étapes d'inférence. De plus, nous introduisons une stratégie de réglage fin temporel asynchrone qui unifie des tâches variées au sein d'un seul modèle, incluant l'interpolation et la génération vidéo à partir d'images. Des expériences approfondies sur des benchmarks exigeants de génération d'images et de vidéos démontrent qu'URSA surpasse constamment les méthodes discrètes existantes et atteint des performances comparables aux méthodes de diffusion continues les plus avancées. Le code et les modèles sont disponibles à l'adresse https://github.com/baaivision/URSA.
English
Continuous-space video generation has advanced rapidly, while discrete
approaches lag behind due to error accumulation and long-context inconsistency.
In this work, we revisit discrete generative modeling and present Uniform
discRete diffuSion with metric pAth (URSA), a simple yet powerful framework
that bridges the gap with continuous approaches for the scalable video
generation. At its core, URSA formulates the video generation task as an
iterative global refinement of discrete spatiotemporal tokens. It integrates
two key designs: a Linearized Metric Path and a Resolution-dependent Timestep
Shifting mechanism. These designs enable URSA to scale efficiently to
high-resolution image synthesis and long-duration video generation, while
requiring significantly fewer inference steps. Additionally, we introduce an
asynchronous temporal fine-tuning strategy that unifies versatile tasks within
a single model, including interpolation and image-to-video generation.
Extensive experiments on challenging video and image generation benchmarks
demonstrate that URSA consistently outperforms existing discrete methods and
achieves performance comparable to state-of-the-art continuous diffusion
methods. Code and models are available at https://github.com/baaivision/URSA