ChatPaper.aiChatPaper

メトリックパスを活用した均一離散拡散による映像生成

Uniform Discrete Diffusion with Metric Path for Video Generation

October 28, 2025
著者: Haoge Deng, Ting Pan, Fan Zhang, Yang Liu, Zhuoyan Luo, Yufeng Cui, Wenxuan Wang, Chunhua Shen, Shiguang Shan, Zhaoxiang Zhang, Xinlong Wang
cs.AI

要旨

連続空間におけるビデオ生成は急速に進歩している一方で、離散的手法は誤差蓄積と長文脈における不一致の問題から遅れをとっている。本研究では離散的生成モデリングを再検討し、Uniform discRete diffuSion with metric pAth(URSA)という、スケーラブルなビデオ生成において連続的手法とのギャップを埋めるシンプルかつ強力なフレームワークを提案する。URSAの核心は、ビデオ生成タスクを離散的時空間トークンの反復的グローバル refinement として定式化することである。本フレームワークは2つの重要な設計、すなわち線形化メトリックパスと解像度依存タイムステップシフトメカニズムを統合している。これらの設計により、URSAは高解像度画像合成および長時間ビデオ生成への効率的なスケーリングを実現し、かつ推論ステップ数を大幅に削減する。さらに、補間や画像からのビデオ生成など多様なタスクを単一モデル内で統一する非同期時間的ファインチューニング戦略を導入する。挑戦的なビデオおよび画像生成ベンチマークにおける大規模な実験により、URSAが既存の離散的手法を一貫して上回り、最先端の連続拡散手法に匹敵する性能を達成することを実証する。コードとモデルはhttps://github.com/baaivision/URSAで公開されている。
English
Continuous-space video generation has advanced rapidly, while discrete approaches lag behind due to error accumulation and long-context inconsistency. In this work, we revisit discrete generative modeling and present Uniform discRete diffuSion with metric pAth (URSA), a simple yet powerful framework that bridges the gap with continuous approaches for the scalable video generation. At its core, URSA formulates the video generation task as an iterative global refinement of discrete spatiotemporal tokens. It integrates two key designs: a Linearized Metric Path and a Resolution-dependent Timestep Shifting mechanism. These designs enable URSA to scale efficiently to high-resolution image synthesis and long-duration video generation, while requiring significantly fewer inference steps. Additionally, we introduce an asynchronous temporal fine-tuning strategy that unifies versatile tasks within a single model, including interpolation and image-to-video generation. Extensive experiments on challenging video and image generation benchmarks demonstrate that URSA consistently outperforms existing discrete methods and achieves performance comparable to state-of-the-art continuous diffusion methods. Code and models are available at https://github.com/baaivision/URSA
PDF391December 1, 2025