## 메트릭 경로를 활용한 균일 이산 확산 비디오 생성
Uniform Discrete Diffusion with Metric Path for Video Generation
October 28, 2025
저자: Haoge Deng, Ting Pan, Fan Zhang, Yang Liu, Zhuoyan Luo, Yufeng Cui, Wenxuan Wang, Chunhua Shen, Shiguang Shan, Zhaoxiang Zhang, Xinlong Wang
cs.AI
초록
연속 공간 비디오 생성은 빠르게 발전한 반면, 이산적 접근법은 오류 누적과 장기 맥락 불일치로 인해 뒤처져 왔습니다. 본 연구에서는 이산적 생성 모델링을 재조명하며 확장 가능한 비디오 생성을 위해 연속적 접근법과의 격차를 해소하는 간단하면서도 강력한 프레임워크인 URSA(Uniform discRete diffuSion with metric pAth)를 제안합니다. URSA의 핵심은 비디오 생성 작업을 이산적 시공간 토큰의 반복적 전역 정제로 공식화하는 것입니다. 여기에는 두 가지 핵심 설계가 통합되어 있습니다: 선형화된 메트릭 경로(Linearized Metric Path)와 해상도 의존적 타임스텝 이동(Resolution-dependent Timestep Shifting) 메커니즘입니다. 이러한 설계를 통해 URSA는 상당히 적은 추론 단계만으로 고해상도 이미지 합성 및 장기간 비디오 생성에 효율적으로 확장될 수 있습니다. 또한 보간 및 이미지-비디오 생성 등 다양한 작업을 단일 모델 내에서 통합하는 비동기적 시간적 미세 조정 전략을 도입합니다. 까다로운 비디오 및 이미지 생성 벤치마크에 대한 광범위한 실험을 통해 URSA가 기존 이산적 방법을 지속적으로 능가하며 최첨단 연속 확산 방법에 버금가는 성능을 달성함을 입증합니다. 코드와 모델은 https://github.com/baaivision/URSA에서 확인할 수 있습니다.
English
Continuous-space video generation has advanced rapidly, while discrete
approaches lag behind due to error accumulation and long-context inconsistency.
In this work, we revisit discrete generative modeling and present Uniform
discRete diffuSion with metric pAth (URSA), a simple yet powerful framework
that bridges the gap with continuous approaches for the scalable video
generation. At its core, URSA formulates the video generation task as an
iterative global refinement of discrete spatiotemporal tokens. It integrates
two key designs: a Linearized Metric Path and a Resolution-dependent Timestep
Shifting mechanism. These designs enable URSA to scale efficiently to
high-resolution image synthesis and long-duration video generation, while
requiring significantly fewer inference steps. Additionally, we introduce an
asynchronous temporal fine-tuning strategy that unifies versatile tasks within
a single model, including interpolation and image-to-video generation.
Extensive experiments on challenging video and image generation benchmarks
demonstrate that URSA consistently outperforms existing discrete methods and
achieves performance comparable to state-of-the-art continuous diffusion
methods. Code and models are available at https://github.com/baaivision/URSA