Diffusione Discreta Uniforme con Percorso Metrico per la Generazione Video
Uniform Discrete Diffusion with Metric Path for Video Generation
October 28, 2025
Autori: Haoge Deng, Ting Pan, Fan Zhang, Yang Liu, Zhuoyan Luo, Yufeng Cui, Wenxuan Wang, Chunhua Shen, Shiguang Shan, Zhaoxiang Zhang, Xinlong Wang
cs.AI
Abstract
La generazione di video in spazio continuo ha compiuto rapidi progressi, mentre gli approcci discreti rimangono indietro a causa dell'accumulo di errori e dell'incoerenza nei contesti lunghi. In questo lavoro, rivisitiamo la modellazione generativa discreta e presentiamo Uniform discRete diffuSion with metric pAth (URSA), un framework semplice ma potente che colma il divario con gli approcci continui per la generazione scalabile di video. Il nucleo di URSA formula il compito di generazione video come un raffinamento globale iterativo di token spaziotemporali discreti. Integra due progetti chiave: un Percorso Metrico Linearizzato e un meccanismo di Scostamento Temporale Dipendente dalla Risoluzione. Questi design consentono a URSA di scalare efficientemente verso la sintesi di immagini ad alta risoluzione e la generazione di video di lunga durata, richiedendo significativamente meno passi di inferenza. Inoltre, introduciamo una strategia di fine-tuning temporale asincrona che unifica compiti versatili all'interno di un unico modello, inclusi l'interpolazione e la generazione da immagine a video. Esperimenti estesi su benchmark impegnativi per la generazione di video e immagini dimostrano che URSA supera costantemente i metodi discreti esistenti e raggiunge prestazioni comparabili ai metodi di diffusione continua all'avanguardia. Codice e modelli sono disponibili su https://github.com/baaivision/URSA.
English
Continuous-space video generation has advanced rapidly, while discrete
approaches lag behind due to error accumulation and long-context inconsistency.
In this work, we revisit discrete generative modeling and present Uniform
discRete diffuSion with metric pAth (URSA), a simple yet powerful framework
that bridges the gap with continuous approaches for the scalable video
generation. At its core, URSA formulates the video generation task as an
iterative global refinement of discrete spatiotemporal tokens. It integrates
two key designs: a Linearized Metric Path and a Resolution-dependent Timestep
Shifting mechanism. These designs enable URSA to scale efficiently to
high-resolution image synthesis and long-duration video generation, while
requiring significantly fewer inference steps. Additionally, we introduce an
asynchronous temporal fine-tuning strategy that unifies versatile tasks within
a single model, including interpolation and image-to-video generation.
Extensive experiments on challenging video and image generation benchmarks
demonstrate that URSA consistently outperforms existing discrete methods and
achieves performance comparable to state-of-the-art continuous diffusion
methods. Code and models are available at https://github.com/baaivision/URSA