Ein Modell, viele Budgets: Elastische latente Schnittstellen für Diffusion-Transformatoren

Zusammenfassung

Diffusion-Transformatoren (DiTs) erzielen hohe generative Qualität, koppeln jedoch die FLOPs an die Bildauflösung, was prinzipielle Latency-Quality-Kompromisse einschränkt, und verteilen die Berechnungen gleichmäßig über die räumlichen Eingabe-Tokens, wodurch Rechenressourcen für unwichtige Regionen verschwendet werden. Wir stellen Elastic Latent Interface Transformer (ELIT) vor, einen direkt austauschbaren, DiT-kompatiblen Mechanismus, der die Eingabebildgröße von der Berechnung entkoppelt. Unser Ansatz fügt eine latente Schnittstelle ein, eine lernbare Token-Sequenz variabler Länge, auf der Standard-Transformer-Blöcke operieren können. Leichtgewichtige Read- und Write-Cross-Attention-Schichten bewegen Informationen zwischen räumlichen Tokens und latenten Variablen und priorisieren wichtige Eingaberegionen. Durch Training mit zufälligem Auslassen hinterer latenter Variablen lernt ELIT, bedeutungsgeordnete Repräsentationen zu erzeugen, wobei frühe latente Variablen die globale Struktur erfassen, während spätere Informationen zur Verfeinerung von Details enthalten. Zur Inferenzzeit kann die Anzahl der latenten Variablen dynamisch angepasst werden, um Rechenbeschränkungen zu entsprechen. ELIT ist bewusst minimalistisch gehalten und fügt lediglich zwei Cross-Attention-Schichten hinzu, während das Rectified-Flow-Ziel und die DiT-Architektur unverändert bleiben. Über verschiedene Datensätze und Architekturen (DiT, U-ViT, HDiT, MM-DiT) hinweg erzielt ELIT konsistent Verbesserungen. Auf ImageNet-1K 512px erzielt ELIT durchschnittliche Verbesserungen von 35,3 % bzw. 39,6 % bei den FID- und FDD-Werten. Projektseite: https://snap-research.github.io/elit/

English

Diffusion transformers (DiTs) achieve high generative quality but lock FLOPs to image resolution, limiting principled latency-quality trade-offs, and allocate computation uniformly across input spatial tokens, wasting resource allocation to unimportant regions. We introduce Elastic Latent Interface Transformer (ELIT), a drop-in, DiT-compatible mechanism that decouples input image size from compute. Our approach inserts a latent interface, a learnable variable-length token sequence on which standard transformer blocks can operate. Lightweight Read and Write cross-attention layers move information between spatial tokens and latents and prioritize important input regions. By training with random dropping of tail latents, ELIT learns to produce importance-ordered representations with earlier latents capturing global structure while later ones contain information to refine details. At inference, the number of latents can be dynamically adjusted to match compute constraints. ELIT is deliberately minimal, adding two cross-attention layers while leaving the rectified flow objective and the DiT stack unchanged. Across datasets and architectures (DiT, U-ViT, HDiT, MM-DiT), ELIT delivers consistent gains. On ImageNet-1K 512px, ELIT delivers an average gain of 35.3% and 39.6% in FID and FDD scores. Project page: https://snap-research.github.io/elit/

Ein Modell, viele Budgets: Elastische latente Schnittstellen für Diffusion-Transformatoren

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Zusammenfassung

Support