Um Modelo, Múltiplos Orçamentos: Interfaces Elásticas Latentes para Transformadores de Difusão

Resumo

Os transformadores de difusão (DiTs) alcançam alta qualidade generativa, mas vinculam os FLOPs à resolução da imagem, limitando trade-offs fundamentais entre latência e qualidade, e alocam computação uniformemente entre os tokens espaciais de entrada, desperdiçando alocação de recursos em regiões não importantes. Apresentamos o Elastic Latent Interface Transformer (ELIT), um mecanismo compatível e substituto para DiTs que desacopla o tamanho da imagem de entrada do cálculo computacional. Nossa abordagem insere uma interface latente, uma sequência de tokens de comprimento variável e treinável na qual blocos padrão de transformadores podem operar. Camadas leves de atenção cruzada de Leitura e Escrita movem informações entre tokens espaciais e latentes e priorizam regiões importantes da entrada. Ao treinar com descarte aleatório de latentes da cauda, o ELIT aprende a produzir representações ordenadas por importância, com os primeiros latentes capturando a estrutura global enquanto os últimos contêm informações para refinar detalhes. Na inferência, o número de latentes pode ser ajustado dinamicamente para corresponder às restrições computacionais. O ELIT é deliberadamente minimalista, adicionando apenas duas camadas de atenção cruzada enquanto mantém inalterados o objetivo de fluxo retificado e a pilha do DiT. Em diversos conjuntos de dados e arquiteturas (DiT, U-ViT, HDiT, MM-DiT), o ELIT oferece ganhos consistentes. No ImageNet-1K 512px, o ELIT proporciona um ganho médio de 35,3% e 39,6% nos scores FID e FDD. Página do projeto: https://snap-research.github.io/elit/

English

Diffusion transformers (DiTs) achieve high generative quality but lock FLOPs to image resolution, limiting principled latency-quality trade-offs, and allocate computation uniformly across input spatial tokens, wasting resource allocation to unimportant regions. We introduce Elastic Latent Interface Transformer (ELIT), a drop-in, DiT-compatible mechanism that decouples input image size from compute. Our approach inserts a latent interface, a learnable variable-length token sequence on which standard transformer blocks can operate. Lightweight Read and Write cross-attention layers move information between spatial tokens and latents and prioritize important input regions. By training with random dropping of tail latents, ELIT learns to produce importance-ordered representations with earlier latents capturing global structure while later ones contain information to refine details. At inference, the number of latents can be dynamically adjusted to match compute constraints. ELIT is deliberately minimal, adding two cross-attention layers while leaving the rectified flow objective and the DiT stack unchanged. Across datasets and architectures (DiT, U-ViT, HDiT, MM-DiT), ELIT delivers consistent gains. On ImageNet-1K 512px, ELIT delivers an average gain of 35.3% and 39.6% in FID and FDD scores. Project page: https://snap-research.github.io/elit/

Um Modelo, Múltiplos Orçamentos: Interfaces Elásticas Latentes para Transformadores de Difusão

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Resumo

Support