ELT: Trasformatori Elastici ad Anello per la Generazione Visiva
ELT: Elastic Looped Transformers for Visual Generation
April 10, 2026
Autori: Sahil Goyal, Swayam Agrawal, Gautham Govind Anil, Prateek Jain, Sujoy Paul, Aditya Kusupati
cs.AI
Abstract
Introduciamo Elastic Looped Transformers (ELT), una classe di modelli generativi visivi altamente efficiente in termini di parametri, basata su un'architettura transformer ricorrente. Mentre i modelli generativi convenzionali si basano su stack profondi di layer transformer unici, il nostro approccio utilizza blocchi transformer iterativi e a pesi condivisi per ridurre drasticamente il numero di parametri mantenendo un'elevata qualità di sintesi. Per addestrare efficacemente questi modelli per la generazione di immagini e video, proponiamo l'idea di *Intra-Loop Self Distillation* (ILSD), in cui le configurazioni studente (loop intermedi) vengono distillate dalla configurazione insegnante (numero massimo di loop di addestramento) per garantire coerenza lungo la profondità del modello in un singolo passo di addestramento. Il nostro framework produce una famiglia di modelli elastici da una singola esecuzione di addestramento, abilitando capacità di inferenza *Any-Time* con compromessi dinamici tra costo computazionale e qualità della generazione, a parità di numero di parametri. ELT sposta significativamente la frontiera dell'efficienza per la sintesi visiva. Con una riduzione di 4 volte del numero di parametri in condizioni iso-inference-compute, ELT raggiunge un FID competitivo di 2.0 su ImageNet 256×256 condizionato per classe e un FVD di 72.8 su UCF-101 condizionato per classe.
English
We introduce Elastic Looped Transformers (ELT), a highly parameter-efficient class of visual generative models based on a recurrent transformer architecture. While conventional generative models rely on deep stacks of unique transformer layers, our approach employs iterative, weight-shared transformer blocks to drastically reduce parameter counts while maintaining high synthesis quality. To effectively train these models for image and video generation, we propose the idea of Intra-Loop Self Distillation (ILSD), where student configurations (intermediate loops) are distilled from the teacher configuration (maximum training loops) to ensure consistency across the model's depth in a single training step. Our framework yields a family of elastic models from a single training run, enabling Any-Time inference capability with dynamic trade-offs between computational cost and generation quality, with the same parameter count. ELT significantly shifts the efficiency frontier for visual synthesis. With 4times reduction in parameter count under iso-inference-compute settings, ELT achieves a competitive FID of 2.0 on class-conditional ImageNet 256 times 256 and FVD of 72.8 on class-conditional UCF-101.