Uniforme Discrete Diffusie met Metrische Pad voor Videogeneratie
Uniform Discrete Diffusion with Metric Path for Video Generation
October 28, 2025
Auteurs: Haoge Deng, Ting Pan, Fan Zhang, Yang Liu, Zhuoyan Luo, Yufeng Cui, Wenxuan Wang, Chunhua Shen, Shiguang Shan, Zhaoxiang Zhang, Xinlong Wang
cs.AI
Samenvatting
Continue-ruimtige videogeneratie heeft een snelle vooruitgang geboekt, terwijl discrete benaderingen achterblijven door foutaccumulatie en inconsistentie over lange contexten. In dit werk herzien we discrete generatieve modellering en presenteren Uniform discRete diffuSion with metric pAth (URSA), een eenvoudig maar krachtig raamwerk dat de kloof met continue benaderingen overbrugt voor schaalbare videogeneratie. De kern van URSA bestaat uit het formuleren van de videogeneratietaak als een iteratieve globale verfijning van discrete ruimtelijk-temporele tokens. Het integreert twee belangrijke ontwerpen: een Lineair Gemaakt Metrisch Pad en een Resolutie-afhankelijk Tijdstipverschuivingsmechanisme. Deze ontwerpen stellen URSA in staat efficiënt op te schalen naar hoogwaardige beeldsynthese en videogeneratie van lange duur, terwijl aanzienlijk minder inferentiestappen nodig zijn. Daarnaast introduceren we een asynchrone temporele fine-tuningstrategie die veelzijdige taken verenigt binnen een enkel model, inclusief interpolatie en beeld-naar-videogeneratie. Uitgebreide experimenten op veeleisende benchmarks voor video- en beeldgeneratie tonen aan dat URSA consistent beter presteert dan bestaande discrete methoden en prestaties bereikt die vergelijkbaar zijn met state-of-the-art continue diffusiemethoden. Code en modellen zijn beschikbaar op https://github.com/baaivision/URSA.
English
Continuous-space video generation has advanced rapidly, while discrete
approaches lag behind due to error accumulation and long-context inconsistency.
In this work, we revisit discrete generative modeling and present Uniform
discRete diffuSion with metric pAth (URSA), a simple yet powerful framework
that bridges the gap with continuous approaches for the scalable video
generation. At its core, URSA formulates the video generation task as an
iterative global refinement of discrete spatiotemporal tokens. It integrates
two key designs: a Linearized Metric Path and a Resolution-dependent Timestep
Shifting mechanism. These designs enable URSA to scale efficiently to
high-resolution image synthesis and long-duration video generation, while
requiring significantly fewer inference steps. Additionally, we introduce an
asynchronous temporal fine-tuning strategy that unifies versatile tasks within
a single model, including interpolation and image-to-video generation.
Extensive experiments on challenging video and image generation benchmarks
demonstrate that URSA consistently outperforms existing discrete methods and
achieves performance comparable to state-of-the-art continuous diffusion
methods. Code and models are available at https://github.com/baaivision/URSA