Un Modelo, Múltiples Presupuestos: Interfaces Elásticas Latentes para Transformadores de Difusión

Resumen

Los transformadores de difusión (DiT) logran alta calidad generativa pero acoplan los FLOPs a la resolución de imagen, limitando los equilibrios latencia-calidad fundamentales, y asignan el cálculo uniformemente entre los tokens espaciales de entrada, desperdiciando recursos en regiones poco importantes. Presentamos Elastic Latent Interface Transformer (ELIT), un mecanismo compatible con DiT que desacopla el tamaño de imagen de entrada del cómputo. Nuestro enfoque inserta una interfaz latente, una secuencia de tokens de longitud variable entrenable sobre la cual pueden operar bloques transformer estándar. Capas ligeras de atención cruzada Lectura y Escritura transfieren información entre tokens espaciales y latentes, priorizando regiones importantes de la entrada. Mediante entrenamiento con eliminación aleatoria de latentes finales, ELIT aprende a producir representaciones ordenadas por importancia, donde los latentes iniciales capturan estructura global mientras los posteriores contienen información para refinar detalles. En inferencia, el número de latentes puede ajustarse dinámicamente para adaptarse a restricciones computacionales. ELIT es deliberadamente minimalista, añadiendo solo dos capas de atención cruzada mientras mantiene inalterados el objetivo de flujo rectificado y la arquitectura DiT. En diversos conjuntos de datos y arquitecturas (DiT, U-ViT, HDiT, MM-DiT), ELIT proporciona mejoras consistentes. En ImageNet-1K 512px, ELIT logra mejoras promedio del 35.3% y 39.6% en puntuaciones FID y FDD. Página del proyecto: https://snap-research.github.io/elit/

English

Diffusion transformers (DiTs) achieve high generative quality but lock FLOPs to image resolution, limiting principled latency-quality trade-offs, and allocate computation uniformly across input spatial tokens, wasting resource allocation to unimportant regions. We introduce Elastic Latent Interface Transformer (ELIT), a drop-in, DiT-compatible mechanism that decouples input image size from compute. Our approach inserts a latent interface, a learnable variable-length token sequence on which standard transformer blocks can operate. Lightweight Read and Write cross-attention layers move information between spatial tokens and latents and prioritize important input regions. By training with random dropping of tail latents, ELIT learns to produce importance-ordered representations with earlier latents capturing global structure while later ones contain information to refine details. At inference, the number of latents can be dynamically adjusted to match compute constraints. ELIT is deliberately minimal, adding two cross-attention layers while leaving the rectified flow objective and the DiT stack unchanged. Across datasets and architectures (DiT, U-ViT, HDiT, MM-DiT), ELIT delivers consistent gains. On ImageNet-1K 512px, ELIT delivers an average gain of 35.3% and 39.6% in FID and FDD scores. Project page: https://snap-research.github.io/elit/

Un Modelo, Múltiples Presupuestos: Interfaces Elásticas Latentes para Transformadores de Difusión

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Resumen

Support