Uniform Discrete Diffusion mit metrischem Pfad für die Videogenerierung
Uniform Discrete Diffusion with Metric Path for Video Generation
October 28, 2025
papers.authors: Haoge Deng, Ting Pan, Fan Zhang, Yang Liu, Zhuoyan Luo, Yufeng Cui, Wenxuan Wang, Chunhua Shen, Shiguang Shan, Zhaoxiang Zhang, Xinlong Wang
cs.AI
papers.abstract
Die Erzeugung von Videos im kontinuierlichen Raum hat rasante Fortschritte gemacht, während diskrete Ansätze aufgrund von Fehlerakkumulation und Inkonsistenzen über lange Kontexte zurückfallen. In dieser Arbeit besinnen wir uns auf diskrete generative Modellierung und stellen Uniform discRete diffuSion with metric pAth (URSA) vor – einen einfachen, aber leistungsstarken Rahmen, der die Lücke zu kontinuierlichen Ansätzen für die skalierbare Videogenerierung schließt. Im Kern formuliert URSA die Videogenerierungsaufgabe als iterative globale Verfeinerung diskreter raumzeitlicher Tokens. Es integriert zwei Schlüsseldesigns: einen linearisierten Metrikpfad und einen auflösungsabhängigen Zeitschritt-Verschiebungsmechanismus. Diese Designs ermöglichen es URSA, effizient auf hochauflösende Bildsynthese und langandauernde Videogenerierung zu skalieren, wobei deutlich weniger Inferenzschritte benötigt werden. Zusätzlich führen wir eine asynchrone zeitliche Feinabstimmungsstrategie ein, die vielseitige Aufgaben innerhalb eines einzelnen Modells vereinheitlicht, einschließlich Interpolation und Bild-zu-Video-Generierung. Umfangreiche Experimente mit anspruchsvollen Benchmarks für Video- und Bildgenerierung zeigen, dass URSA durchweg bestehende diskrete Methoden übertrifft und eine Leistung erreicht, die mit modernsten kontinuierlichen Diffusionsmethoden vergleichbar ist. Code und Modelle sind verfügbar unter https://github.com/baaivision/URSA.
English
Continuous-space video generation has advanced rapidly, while discrete
approaches lag behind due to error accumulation and long-context inconsistency.
In this work, we revisit discrete generative modeling and present Uniform
discRete diffuSion with metric pAth (URSA), a simple yet powerful framework
that bridges the gap with continuous approaches for the scalable video
generation. At its core, URSA formulates the video generation task as an
iterative global refinement of discrete spatiotemporal tokens. It integrates
two key designs: a Linearized Metric Path and a Resolution-dependent Timestep
Shifting mechanism. These designs enable URSA to scale efficiently to
high-resolution image synthesis and long-duration video generation, while
requiring significantly fewer inference steps. Additionally, we introduce an
asynchronous temporal fine-tuning strategy that unifies versatile tasks within
a single model, including interpolation and image-to-video generation.
Extensive experiments on challenging video and image generation benchmarks
demonstrate that URSA consistently outperforms existing discrete methods and
achieves performance comparable to state-of-the-art continuous diffusion
methods. Code and models are available at https://github.com/baaivision/URSA