Difusão Discreta Uniforme com Caminho Métrico para Geração de Vídeo
Uniform Discrete Diffusion with Metric Path for Video Generation
October 28, 2025
Autores: Haoge Deng, Ting Pan, Fan Zhang, Yang Liu, Zhuoyan Luo, Yufeng Cui, Wenxuan Wang, Chunhua Shen, Shiguang Shan, Zhaoxiang Zhang, Xinlong Wang
cs.AI
Resumo
A geração de vídeo em espaço contínuo avançou rapidamente, enquanto as abordagens discretas ficam para trás devido ao acúmulo de erros e à inconsistência em contextos longos. Neste trabalho, revisitamos a modelagem generativa discreta e apresentamos o Uniform discRete diffuSion with metric pAth (URSA), uma estrutura simples, mas poderosa, que preenche a lacuna com as abordagens contínuas para a geração escalável de vídeo. Em seu cerne, o URSA formula a tarefa de geração de vídeo como um refinamento global iterativo de tokens espaço-temporais discretos. Ele integra dois projetos-chave: um Caminho Métrico Linearizado e um mecanismo de Deslocamento de Passo de Tempo Dependente da Resolução. Esses projetos permitem que o URSA escale eficientemente para a síntese de imagens de alta resolução e a geração de vídeos de longa duração, exigindo significativamente menos etapas de inferência. Além disso, introduzimos uma estratégia de ajuste fino temporal assíncrona que unifica tarefas versáteis em um único modelo, incluindo interpolação e geração de imagem para vídeo. Experimentos extensos em benchmarks desafiadores de geração de vídeo e imagem demonstram que o URSA supera consistentemente os métodos discretos existentes e alcança um desempenho comparável aos métodos de difusão contínua de última geração. Código e modelos estão disponíveis em https://github.com/baaivision/URSA.
English
Continuous-space video generation has advanced rapidly, while discrete
approaches lag behind due to error accumulation and long-context inconsistency.
In this work, we revisit discrete generative modeling and present Uniform
discRete diffuSion with metric pAth (URSA), a simple yet powerful framework
that bridges the gap with continuous approaches for the scalable video
generation. At its core, URSA formulates the video generation task as an
iterative global refinement of discrete spatiotemporal tokens. It integrates
two key designs: a Linearized Metric Path and a Resolution-dependent Timestep
Shifting mechanism. These designs enable URSA to scale efficiently to
high-resolution image synthesis and long-duration video generation, while
requiring significantly fewer inference steps. Additionally, we introduce an
asynchronous temporal fine-tuning strategy that unifies versatile tasks within
a single model, including interpolation and image-to-video generation.
Extensive experiments on challenging video and image generation benchmarks
demonstrate that URSA consistently outperforms existing discrete methods and
achieves performance comparable to state-of-the-art continuous diffusion
methods. Code and models are available at https://github.com/baaivision/URSA