重要な部分をアップサンプリングする:加速拡散トランスフォーマーのための領域適応型潜在サンプリング
Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers
July 11, 2025
著者: Wongi Jeong, Kyungryeol Lee, Hoigi Seo, Se Young Chun
cs.AI
要旨
拡散トランスフォーマーは、高忠実度の画像および動画生成においてU-netベースの拡散モデルに代わる手法として登場し、優れたスケーラビリティを提供している。しかし、その重い計算負荷は実世界での展開における主要な障害となっている。既存の高速化手法は、主に拡散タイムステップ間でキャッシュされた特徴を再利用するなど、時間次元を活用している。本論文では、空間次元に沿って推論を高速化するトレーニング不要のフレームワークであるRegion-Adaptive Latent Upsampling (RALU)を提案する。RALUは、以下の3段階にわたる混合解像度サンプリングを実行する:1) 低解像度でのノイズ除去潜在拡散により、効率的にグローバルな意味構造を捕捉する、2) フル解像度でアーティファクトが発生しやすい特定の領域に対して領域適応型アップサンプリングを行う、3) 詳細なリファインメントのためにフル解像度で全ての潜在をアップサンプリングする。解像度遷移における生成の安定化のために、ノイズレベルを異なる解像度に適応させるためにノイズタイムステップの再スケジューリングを活用する。本手法は、FLUXで最大7.0倍、Stable Diffusion 3で3.0倍の高速化を達成し、画像品質を維持しながら計算量を大幅に削減する。さらに、RALUはキャッシュ手法などの既存の時間的高速化手法と補完的であり、生成品質を損なうことなく推論レイテンシをさらに削減するためにシームレスに統合することが可能である。
English
Diffusion transformers have emerged as an alternative to U-net-based
diffusion models for high-fidelity image and video generation, offering
superior scalability. However, their heavy computation remains a major obstacle
to real-world deployment. Existing acceleration methods primarily exploit the
temporal dimension such as reusing cached features across diffusion timesteps.
Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free
framework that accelerates inference along spatial dimension. RALU performs
mixed-resolution sampling across three stages: 1) low-resolution denoising
latent diffusion to efficiently capture global semantic structure, 2)
region-adaptive upsampling on specific regions prone to artifacts at
full-resolution, and 3) all latent upsampling at full-resolution for detail
refinement. To stabilize generations across resolution transitions, we leverage
noise-timestep rescheduling to adapt the noise level across varying
resolutions. Our method significantly reduces computation while preserving
image quality by achieving up to 7.0times speed-up on FLUX and 3.0times
on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is
complementary to existing temporal accelerations such as caching methods, thus
can be seamlessly integrated to further reduce inference latency without
compromising generation quality.