ELT: Elastische Schleifen-Transformatoren für visuelle Generierung
ELT: Elastic Looped Transformers for Visual Generation
April 10, 2026
Autoren: Sahil Goyal, Swayam Agrawal, Gautham Govind Anil, Prateek Jain, Sujoy Paul, Aditya Kusupati
cs.AI
Zusammenfassung
Wir stellen Elastic Looped Transformers (ELT) vor, eine hochgradig parameter-effiziente Klasse visueller generativer Modelle, die auf einer rekurrenten Transformer-Architektur basieren. Während konventionelle generative Modelle auf tiefen Stapeln einzigartiger Transformer-Schichten beruhen, nutzt unser Ansatz iterative, gewichteteilende Transformer-Blöcke, um die Parameterzahl drastisch zu reduzieren und gleichzeitig eine hohe Synthesequalität beizubehalten. Um diese Modelle effektiv für die Bild- und Videogenerierung zu trainieren, schlagen wir die Idee der Intra-Loop Self Distillation (ILSD) vor, bei der Studenten-Konfigurationen (intermediäre Schleifen) von der Lehrer-Konfiguration (maximale Trainingsschleifen) destilliert werden, um Konsistenz über die Tiefe des Modells in einem einzigen Trainingsschritt zu gewährleisten. Unser Framework erzeugt eine Familie elastischer Modelle aus einem einzigen Trainingslauf und ermöglicht Any-Time-Inferenz-Fähigkeit mit dynamischen Kompromissen zwischen Rechenkosten und Generierungsqualität bei gleicher Parameteranzahl. ELT verschiebt die Effizienzgrenze für die visuelle Synthese erheblich. Mit einer 4-fachen Reduktion der Parameterzahl unter Iso-Inferenz-Recheneinstellungen erreicht ELT einen konkurrenzfähigen FID von 2,0 auf klassekonditionalem ImageNet 256x256 und einen FVD von 72,8 auf klassekonditionalem UCF-101.
English
We introduce Elastic Looped Transformers (ELT), a highly parameter-efficient class of visual generative models based on a recurrent transformer architecture. While conventional generative models rely on deep stacks of unique transformer layers, our approach employs iterative, weight-shared transformer blocks to drastically reduce parameter counts while maintaining high synthesis quality. To effectively train these models for image and video generation, we propose the idea of Intra-Loop Self Distillation (ILSD), where student configurations (intermediate loops) are distilled from the teacher configuration (maximum training loops) to ensure consistency across the model's depth in a single training step. Our framework yields a family of elastic models from a single training run, enabling Any-Time inference capability with dynamic trade-offs between computational cost and generation quality, with the same parameter count. ELT significantly shifts the efficiency frontier for visual synthesis. With 4times reduction in parameter count under iso-inference-compute settings, ELT achieves a competitive FID of 2.0 on class-conditional ImageNet 256 times 256 and FVD of 72.8 on class-conditional UCF-101.