ChatPaper.aiChatPaper

Равномерное дискретное распространение с метрическим путем для генерации видео

Uniform Discrete Diffusion with Metric Path for Video Generation

October 28, 2025
Авторы: Haoge Deng, Ting Pan, Fan Zhang, Yang Liu, Zhuoyan Luo, Yufeng Cui, Wenxuan Wang, Chunhua Shen, Shiguang Shan, Zhaoxiang Zhang, Xinlong Wang
cs.AI

Аннотация

Генерация видео в непрерывном пространстве быстро развивалась, в то время как дискретные подходы отстают из-за накопления ошибок и несогласованности в длинных контекстах. В данной работе мы пересматриваем дискретное генеративное моделирование и представляем Uniform discRete diffuSion with metric pAth (URSA) — простую, но мощную структуру, которая сокращает разрыв с непрерывными подходами для масштабируемой генерации видео. В основе URSA лежит формулировка задачи генерации видео как итеративной глобальной доработки дискретных пространственно-временных токенов. Она интегрирует две ключевые разработки: линеаризованный метрический путь и механизм сдвига временных шагов, зависящий от разрешения. Эти решения позволяют URSA эффективно масштабироваться для синтеза изображений высокого разрешения и генерации видео длительной продолжительности, требуя при этом значительно меньше шагов вывода. Дополнительно мы представляем стратегию асинхронной временной тонкой настройки, которая объединяет разнообразные задачи в рамках единой модели, включая интерполяцию и генерацию видео из изображений. Многочисленные эксперименты на сложных наборах данных по генерации видео и изображений демонстрируют, что URSA стабильно превосходит существующие дискретные методы и достигает производительности, сопоставимой с передовыми методами диффузии в непрерывном пространстве. Код и модели доступны по адресу https://github.com/baaivision/URSA.
English
Continuous-space video generation has advanced rapidly, while discrete approaches lag behind due to error accumulation and long-context inconsistency. In this work, we revisit discrete generative modeling and present Uniform discRete diffuSion with metric pAth (URSA), a simple yet powerful framework that bridges the gap with continuous approaches for the scalable video generation. At its core, URSA formulates the video generation task as an iterative global refinement of discrete spatiotemporal tokens. It integrates two key designs: a Linearized Metric Path and a Resolution-dependent Timestep Shifting mechanism. These designs enable URSA to scale efficiently to high-resolution image synthesis and long-duration video generation, while requiring significantly fewer inference steps. Additionally, we introduce an asynchronous temporal fine-tuning strategy that unifies versatile tasks within a single model, including interpolation and image-to-video generation. Extensive experiments on challenging video and image generation benchmarks demonstrate that URSA consistently outperforms existing discrete methods and achieves performance comparable to state-of-the-art continuous diffusion methods. Code and models are available at https://github.com/baaivision/URSA
PDF391December 1, 2025