ChatPaper.aiChatPaper

単一モデル、多様な予算:拡散トランスフォーマーのための弾力的潜在インターフェース

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

March 12, 2026
著者: Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Dogyun Park, Anil Kag, Michael Vasilkovsky, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin
cs.AI

要旨

拡散トランスフォーマー(DiT)は高い生成品質を実現するが、FLOPsが画像解像度に固定されるため、原理的なレイテンシと品質のトレードオフが制限され、入力空間トークン全体に均一に計算を割り当てるため、重要でない領域へのリソース配分が非効率である。本研究では、Elastic Latent Interface Transformer(ELIT)を提案する。これはドロップインでDiT互換のメカニズムであり、入力画像サイズと計算量を分離する。我々のアプローチは、潜在インターフェース、すなわち標準的なトランスフォーマーブロックが操作可能な学習可能な可変長トークン系列を挿入する。軽量なReadおよびWriteクロスアテンション層が空間トークンと潜在変数の間で情報を移動し、重要な入力領域を優先する。末尾の潜在変数をランダムにドロップする学習により、ELITは重要度順の表現を生成することを学習する。初期の潜在変数は大域的な構造を捕捉し、後期の潜在変数は詳細を洗練するための情報を含む。推論時には、潜在変数の数を動的に調整して計算制約に合わせることができる。ELITは意図的に最小限に設計されており、修正フロー目的関数とDiTスタックは変更せず、2つのクロスアテンション層を追加するのみである。様々なデータセットとアーキテクチャ(DiT、U-ViT、HDiT、MM-DiT)において、ELITは一貫した改善をもたらす。ImageNet-1K 512pxでは、ELITはFIDおよびFDDスコアで平均35.3%、39.6%の改善を達成する。プロジェクトページ: https://snap-research.github.io/elit/
English
Diffusion transformers (DiTs) achieve high generative quality but lock FLOPs to image resolution, limiting principled latency-quality trade-offs, and allocate computation uniformly across input spatial tokens, wasting resource allocation to unimportant regions. We introduce Elastic Latent Interface Transformer (ELIT), a drop-in, DiT-compatible mechanism that decouples input image size from compute. Our approach inserts a latent interface, a learnable variable-length token sequence on which standard transformer blocks can operate. Lightweight Read and Write cross-attention layers move information between spatial tokens and latents and prioritize important input regions. By training with random dropping of tail latents, ELIT learns to produce importance-ordered representations with earlier latents capturing global structure while later ones contain information to refine details. At inference, the number of latents can be dynamically adjusted to match compute constraints. ELIT is deliberately minimal, adding two cross-attention layers while leaving the rectified flow objective and the DiT stack unchanged. Across datasets and architectures (DiT, U-ViT, HDiT, MM-DiT), ELIT delivers consistent gains. On ImageNet-1K 512px, ELIT delivers an average gain of 35.3% and 39.6% in FID and FDD scores. Project page: https://snap-research.github.io/elit/
PDF133March 15, 2026