ELT: Transformadores com Loop Elástico para Geração Visual

Resumo

Apresentamos os Elastic Looped Transformers (ELT), uma classe de modelos generativos visuais altamente eficiente em parâmetros, baseada numa arquitetura recorrente de transformadores. Enquanto os modelos generativos convencionais dependem de pilhas profundas de camadas de transformadores únicas, a nossa abordagem emprega blocos de transformadores iterativos e com partilha de pesos para reduzir drasticamente a contagem de parâmetros, mantendo uma alta qualidade de síntese. Para treinar eficazmente estes modelos para geração de imagem e vídeo, propomos a ideia de Auto-Distilação Intra-Loop (ILSD), onde configurações de estudante (loops intermédios) são destiladas a partir da configuração de professor (loops máximos de treino) para garantir consistência ao longo da profundidade do modelo num único passo de treino. O nosso framework produz uma família de modelos elásticos a partir de uma única execução de treino, permitindo capacidade de inferência Any-Time com compromissos dinâmicos entre o custo computacional e a qualidade de geração, com a mesma contagem de parâmetros. O ELT desloca significativamente a fronteira de eficiência para a síntese visual. Com uma redução de 4 vezes na contagem de parâmetros em configurações iso-inference-compute, o ELT atinge um FID competitivo de 2.0 no ImageNet 256x256 condicionado por classe e um FVD de 72.8 no UCF-101 condicionado por classe.

English

We introduce Elastic Looped Transformers (ELT), a highly parameter-efficient class of visual generative models based on a recurrent transformer architecture. While conventional generative models rely on deep stacks of unique transformer layers, our approach employs iterative, weight-shared transformer blocks to drastically reduce parameter counts while maintaining high synthesis quality. To effectively train these models for image and video generation, we propose the idea of Intra-Loop Self Distillation (ILSD), where student configurations (intermediate loops) are distilled from the teacher configuration (maximum training loops) to ensure consistency across the model's depth in a single training step. Our framework yields a family of elastic models from a single training run, enabling Any-Time inference capability with dynamic trade-offs between computational cost and generation quality, with the same parameter count. ELT significantly shifts the efficiency frontier for visual synthesis. With 4times reduction in parameter count under iso-inference-compute settings, ELT achieves a competitive FID of 2.0 on class-conditional ImageNet 256 times 256 and FVD of 72.8 on class-conditional UCF-101.

ELT: Transformadores com Loop Elástico para Geração Visual

ELT: Elastic Looped Transformers for Visual Generation

Resumo

Support