ELT: Transformadores de Bucles Elásticos para Generación Visual
ELT: Elastic Looped Transformers for Visual Generation
April 10, 2026
Autores: Sahil Goyal, Swayam Agrawal, Gautham Govind Anil, Prateek Jain, Sujoy Paul, Aditya Kusupati
cs.AI
Resumen
Presentamos Elastic Looped Transformers (ELT), una clase de modelos generativos visuales altamente eficiente en parámetros basada en una arquitectura de transformadores recurrentes. Mientras que los modelos generativos convencionales dependen de pilas profundas de capas de transformadores únicas, nuestro enfoque emplea bloques de transformadores iterativos y con pesos compartidos para reducir drásticamente el número de parámetros manteniendo una alta calidad de síntesis. Para entrenar eficazmente estos modelos en la generación de imágenes y vídeos, proponemos la idea de Auto-Destilación Intra-Bucle (ILSD), donde las configuraciones de estudiante (bucles intermedios) se destilan a partir de la configuración de profesor (máximo número de bucles de entrenamiento) para garantizar la coherencia a lo largo de la profundidad del modelo en un único paso de entrenamiento. Nuestro marco produce una familia de modelos elásticos a partir de una única ejecución de entrenamiento, permitiendo una capacidad de inferencia en Cualquier Momento con compensaciones dinámicas entre el coste computacional y la calidad de la generación, manteniendo el mismo recuento de parámetros. ELT desplaza significativamente la frontera de eficiencia para la síntesis visual. Con una reducción de 4 veces en el número de parámetros bajo configuraciones de cómputo de inferencia equivalentes, ELT logra un FID competitivo de 2.0 en ImageNet 256x256 condicionado por clase y un FVD de 72.8 en UCF-101 condicionado por clase.
English
We introduce Elastic Looped Transformers (ELT), a highly parameter-efficient class of visual generative models based on a recurrent transformer architecture. While conventional generative models rely on deep stacks of unique transformer layers, our approach employs iterative, weight-shared transformer blocks to drastically reduce parameter counts while maintaining high synthesis quality. To effectively train these models for image and video generation, we propose the idea of Intra-Loop Self Distillation (ILSD), where student configurations (intermediate loops) are distilled from the teacher configuration (maximum training loops) to ensure consistency across the model's depth in a single training step. Our framework yields a family of elastic models from a single training run, enabling Any-Time inference capability with dynamic trade-offs between computational cost and generation quality, with the same parameter count. ELT significantly shifts the efficiency frontier for visual synthesis. With 4times reduction in parameter count under iso-inference-compute settings, ELT achieves a competitive FID of 2.0 on class-conditional ImageNet 256 times 256 and FVD of 72.8 on class-conditional UCF-101.