Un Modello, Molti Budget: Interfacce Latenti Elastiche per Trasformatori Diffusivi

Abstract

I transformer di diffusione (DiT) raggiungono un'elevata qualità generativa ma vincolano i FLOP alla risoluzione dell'immagine, limitando i compromessi principled tra latenza e qualità, e allocano il calcolo uniformemente tra i token spaziali di input, sprecando risorse in regioni non importanti. Introduciamo Elastic Latent Interface Transformer (ELIT), un meccanismo compatibile e sostitutivo per DiT che disaccoppia la dimensione dell'immagine di input dal calcolo. Il nostro approccio inserisce un'interfaccia latente, una sequenza di token di lunghezza variabile e apprendibile sulla quale possono operare i normali blocchi transformer. Strati di cross-attention leggeri di Lettura e Scrittura spostano le informazioni tra i token spaziali e i latenti e danno priorità alle regioni di input importanti. Addestrando con l'eliminazione casuale dei latenti finali, ELIT impara a produrre rappresentazioni ordinate per importanza, dove i latenti iniziali catturano la struttura globale mentre quelli successivi contengono informazioni per rifinire i dettagli. In fase di inferenza, il numero di latenti può essere regolato dinamicamente per adattarsi ai vincoli computazionali. ELIT è volutamente minimale, aggiungendo solo due strati di cross-attention lasciando invariati l'obiettivo del flusso rettificato e lo stack DiT. Su diversi dataset e architetture (DiT, U-ViT, HDiT, MM-DiT), ELIT fornisce miglioramenti consistenti. Su ImageNet-1K 512px, ELIT fornisce un miglioramento medio del 35,3% e del 39,6% rispettivamente nei punteggi FID e FDD. Pagina del progetto: https://snap-research.github.io/elit/

English

Diffusion transformers (DiTs) achieve high generative quality but lock FLOPs to image resolution, limiting principled latency-quality trade-offs, and allocate computation uniformly across input spatial tokens, wasting resource allocation to unimportant regions. We introduce Elastic Latent Interface Transformer (ELIT), a drop-in, DiT-compatible mechanism that decouples input image size from compute. Our approach inserts a latent interface, a learnable variable-length token sequence on which standard transformer blocks can operate. Lightweight Read and Write cross-attention layers move information between spatial tokens and latents and prioritize important input regions. By training with random dropping of tail latents, ELIT learns to produce importance-ordered representations with earlier latents capturing global structure while later ones contain information to refine details. At inference, the number of latents can be dynamically adjusted to match compute constraints. ELIT is deliberately minimal, adding two cross-attention layers while leaving the rectified flow objective and the DiT stack unchanged. Across datasets and architectures (DiT, U-ViT, HDiT, MM-DiT), ELIT delivers consistent gains. On ImageNet-1K 512px, ELIT delivers an average gain of 35.3% and 39.6% in FID and FDD scores. Project page: https://snap-research.github.io/elit/

Un Modello, Molti Budget: Interfacce Latenti Elastiche per Trasformatori Diffusivi

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Abstract

Support