ELT : Transformateurs à Boucles Élastiques pour la Génération Visuelle
ELT: Elastic Looped Transformers for Visual Generation
April 10, 2026
Auteurs: Sahil Goyal, Swayam Agrawal, Gautham Govind Anil, Prateek Jain, Sujoy Paul, Aditya Kusupati
cs.AI
Résumé
Nous présentons Elastic Looped Transformers (ELT), une classe de modèles génératifs visuels très économe en paramètres, basée sur une architecture de transformer récurrente. Alors que les modèles génératifs conventionnels reposent sur des empilements profonds de couches de transformer uniques, notre approche utilise des blocs de transformer itératifs à poids partagés pour réduire drastiquement le nombre de paramètres tout en maintenant une qualité de synthèse élevée. Pour entraîner efficacement ces modèles à la génération d'images et de vidéos, nous proposons l'idée d'auto-distillation intra-boucle (ILSD), où les configurations étudiantes (boucles intermédiaires) sont distillées à partir de la configuration enseignante (nombre maximal de boucles d'entraînement) pour garantir la cohérence sur la profondeur du modèle en une seule étape d'entraînement. Notre cadre produit une famille de modèles élastiques à partir d'une seule exécution d'entraînement, permettant une inférence à tout moment avec des compromis dynamiques entre le coût computationnel et la qualité de génération, pour un même nombre de paramètres. ELT repousse significativement la frontière de l'efficacité pour la synthèse visuelle. Avec une réduction d'un facteur 4 du nombre de paramètres dans des conditions de calcul d'inférence équivalentes, ELT atteint un FID compétitif de 2,0 sur ImageNet 256 × 256 conditionné par classe et un FVD de 72,8 sur UCF-101 conditionné par classe.
English
We introduce Elastic Looped Transformers (ELT), a highly parameter-efficient class of visual generative models based on a recurrent transformer architecture. While conventional generative models rely on deep stacks of unique transformer layers, our approach employs iterative, weight-shared transformer blocks to drastically reduce parameter counts while maintaining high synthesis quality. To effectively train these models for image and video generation, we propose the idea of Intra-Loop Self Distillation (ILSD), where student configurations (intermediate loops) are distilled from the teacher configuration (maximum training loops) to ensure consistency across the model's depth in a single training step. Our framework yields a family of elastic models from a single training run, enabling Any-Time inference capability with dynamic trade-offs between computational cost and generation quality, with the same parameter count. ELT significantly shifts the efficiency frontier for visual synthesis. With 4times reduction in parameter count under iso-inference-compute settings, ELT achieves a competitive FID of 2.0 on class-conditional ImageNet 256 times 256 and FVD of 72.8 on class-conditional UCF-101.