Eén Model, Veel Budgetten: Elastische Latente Interfaces voor Diffusion Transformers

Samenvatting

Diffusietransformers (DiT's) bereiken een hoge generatieve kwaliteit, maar koppelen het aantal FLOPs aan de beeldresolutie, wat principiële latentie-kwaliteit-afwegingen beperkt, en verdelen de rekenkracht uniform over ruimtelijke invoertokens, waardoor resources verspild worden aan onbelangrijke regio's. Wij introduceren de Elastic Latent Interface Transformer (ELIT), een drop-in, DiT-compatibel mechanisme dat de invoerbeeldgrootte ontkoppelt van de rekenkracht. Onze aanpak voegt een latente interface in, een leerbare tokenreeks met variabele lengte waarop standaard transformerblokken kunnen werken. Lichte *Read* en *Write* kruis-attentielagen verplaatsen informatie tussen ruimtelijke tokens en latente tokens en prioriteren belangrijke invoerregio's. Door te trainen met willekeurig weglaten van latente tokens aan het einde, leert ELIT representaties te produceren die op belangrijkheid zijn geordend, waarbij eerdere latente tokens de globale structuur vastleggen en latere informatie bevatten om details te verfijnen. Tijdens inferentie kan het aantal latente tokens dynamisch worden aangepast om aan rekenbeperkingen te voldoen. ELIT is bewust minimaal: het voegt twee kruis-attentielagen toe terwijl de *rectified flow*-doelfunctie en de DiT-stack onveranderd blijven. Over verschillende datasets en architecturen (DiT, U-ViT, HDiT, MM-DiT) levert ELIT consistente verbeteringen. Op ImageNet-1K 512px levert ELIT een gemiddelde verbetering van 35,3% en 39,6% in FID- en FDD-scores. Projectpagina: https://snap-research.github.io/elit/

English

Diffusion transformers (DiTs) achieve high generative quality but lock FLOPs to image resolution, limiting principled latency-quality trade-offs, and allocate computation uniformly across input spatial tokens, wasting resource allocation to unimportant regions. We introduce Elastic Latent Interface Transformer (ELIT), a drop-in, DiT-compatible mechanism that decouples input image size from compute. Our approach inserts a latent interface, a learnable variable-length token sequence on which standard transformer blocks can operate. Lightweight Read and Write cross-attention layers move information between spatial tokens and latents and prioritize important input regions. By training with random dropping of tail latents, ELIT learns to produce importance-ordered representations with earlier latents capturing global structure while later ones contain information to refine details. At inference, the number of latents can be dynamically adjusted to match compute constraints. ELIT is deliberately minimal, adding two cross-attention layers while leaving the rectified flow objective and the DiT stack unchanged. Across datasets and architectures (DiT, U-ViT, HDiT, MM-DiT), ELIT delivers consistent gains. On ImageNet-1K 512px, ELIT delivers an average gain of 35.3% and 39.6% in FID and FDD scores. Project page: https://snap-research.github.io/elit/

Eén Model, Veel Budgetten: Elastische Latente Interfaces voor Diffusion Transformers

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Samenvatting

Support