ELT: Elastische Geluspte Transformers voor Visuele Generatie

Samenvatting

Wij introduceren Elastic Looped Transformers (ELT), een zeer parameter-efficiënte klasse van visuele generatieve modellen gebaseerd op een recurrent transformer-architectuur. Terwijl conventionele generatieve modellen vertrouwen op diepe stapels van unieke transformer-lagen, gebruikt onze aanpak iteratieve, gewichtsgedeelde transformer-blokken om het aantal parameters drastisch te verlagen terwijl een hoge synthesekwaliteit behouden blijft. Om deze modellen effectief te trainen voor beeld- en videogeneratie, stellen wij het idee van Intra-Loop Self Distillation (ILSD) voor, waarbij studentconfiguraties (intermediaire lussen) worden gedistilleerd vanuit de teacherconfiguratie (maximale trainingslussen) om consistentie over de diepte van het model te waarborgen in een enkele trainingsstap. Ons framework levert een familie van elastische modellen op vanuit een enkele trainingsrun, wat Any-Time inference-capaciteit mogelijk maakt met dynamische afwegingen tussen computationele kosten en generatiekwaliteit, bij hetzelfde aantal parameters. ELT verschuift de efficiëntiegrens voor visuele synthese aanzienlijk. Met een 4 keer lagere parameterhoeveelheid onder iso-inference-compute omstandigheden, behaalt ELT een competitieve FID van 2.0 op klasse-conditonele ImageNet 256×256 en een FVD van 72.8 op klasse-conditonele UCF-101.

English

We introduce Elastic Looped Transformers (ELT), a highly parameter-efficient class of visual generative models based on a recurrent transformer architecture. While conventional generative models rely on deep stacks of unique transformer layers, our approach employs iterative, weight-shared transformer blocks to drastically reduce parameter counts while maintaining high synthesis quality. To effectively train these models for image and video generation, we propose the idea of Intra-Loop Self Distillation (ILSD), where student configurations (intermediate loops) are distilled from the teacher configuration (maximum training loops) to ensure consistency across the model's depth in a single training step. Our framework yields a family of elastic models from a single training run, enabling Any-Time inference capability with dynamic trade-offs between computational cost and generation quality, with the same parameter count. ELT significantly shifts the efficiency frontier for visual synthesis. With 4times reduction in parameter count under iso-inference-compute settings, ELT achieves a competitive FID of 2.0 on class-conditional ImageNet 256 times 256 and FVD of 72.8 on class-conditional UCF-101.

ELT: Elastische Geluspte Transformers voor Visuele Generatie

ELT: Elastic Looped Transformers for Visual Generation

Samenvatting

Support