ChatPaper.aiChatPaper

ELT: ビジュアル生成のための弾性ループトランスフォーマー

ELT: Elastic Looped Transformers for Visual Generation

April 10, 2026
著者: Sahil Goyal, Swayam Agrawal, Gautham Govind Anil, Prateek Jain, Sujoy Paul, Aditya Kusupati
cs.AI

要旨

本論文では、リカレントトランスフォーマーアーキテクチャに基づく、高度にパラメータ効率の良い視覚的生成モデルのクラスであるElastic Looped Transformers(ELT)を提案する。従来の生成モデルが深いスタックのユニークなトランスフォーマー層に依存するのに対し、我々のアプローチでは反復的で重み共有型のトランスフォーマーブロックを採用し、高い合成品質を維持しながらパラメータ数を劇的に削減する。画像および動画生成のためにこれらのモデルを効果的に学習させるため、我々はIntra-Loop Self Distillation(ILSD)の概念を提案する。これは、学生設定(中間ループ)が教師設定(最大学習ループ)から知識蒸留され、単一の学習ステップでモデルの深さにわたる一貫性を保証するものである。本フレームワークは、単一の学習実行から弾力的なモデル群を生成し、パラメータ数を変えずに計算コストと生成品質の間の動的トレードオフを可能にするAny-Time(任意時間)推論能力を実現する。ELTは視覚的合成の効率限界を大幅にシフトさせる。等価推論計算設定においてパラメータ数を4分の1に削減したELTは、クラス条件付きImageNet 256×256でFID 2.0、クラス条件付きUCF-101でFVD 72.8という競争力のある結果を達成する。
English
We introduce Elastic Looped Transformers (ELT), a highly parameter-efficient class of visual generative models based on a recurrent transformer architecture. While conventional generative models rely on deep stacks of unique transformer layers, our approach employs iterative, weight-shared transformer blocks to drastically reduce parameter counts while maintaining high synthesis quality. To effectively train these models for image and video generation, we propose the idea of Intra-Loop Self Distillation (ILSD), where student configurations (intermediate loops) are distilled from the teacher configuration (maximum training loops) to ensure consistency across the model's depth in a single training step. Our framework yields a family of elastic models from a single training run, enabling Any-Time inference capability with dynamic trade-offs between computational cost and generation quality, with the same parameter count. ELT significantly shifts the efficiency frontier for visual synthesis. With 4times reduction in parameter count under iso-inference-compute settings, ELT achieves a competitive FID of 2.0 on class-conditional ImageNet 256 times 256 and FVD of 72.8 on class-conditional UCF-101.
PDF151April 14, 2026