Одна модель, множество бюджетов: Эластичные латентные интерфейсы для диффузионных трансформеров

Аннотация

Трансформеры диффузии (DiT) демонстрируют высокое качество генерации, но жестко связывают объем вычислений (FLOPs) с разрешением изображения, ограничивая принципиальные компромиссы между задержкой и качеством, и равномерно распределяют вычисления по пространственным токенам, что приводит к растрате ресурсов на неважные области. Мы представляем Elastic Latent Interface Transformer (ELIT) — совместимый с DiT механизм «подстановки», который отделяет размер входного изображения от объема вычислений. Наш подход вводит латентный интерфейс — обучаемую последовательность токенов переменной длины, с которой могут работать стандартные трансформерные блоки. Легковесные кросс-аттеншн слои чтения и записи переносят информацию между пространственными токенами и латентными переменными, приоритезируя важные области входа. Благодаря обучению со случайным отбрасыванием хвостовых латентных переменных, ELIT учится создавать упорядоченные по важности представления, где начальные латентные переменные захватывают глобальную структуру, а последующие содержат информацию для уточнения деталей. На этапе вывода количество латентных переменных может динамически настраиваться в соответствии с вычислительными ограничениями. ELIT намеренно минималистичен: он добавляет два кросс-аттеншн слоя, оставляя неизменными цель ректифицированного потока и стек DiT. На различных наборах данных и архитектурах (DiT, U-ViT, HDiT, MM-DiT) ELIT обеспечивает стабильное улучшение. На ImageNet-1K 512px ELIT дает средний прирост в 35.3% и 39.6% по показателям FID и FDD соответственно. Страница проекта: https://snap-research.github.io/elit/

English

Diffusion transformers (DiTs) achieve high generative quality but lock FLOPs to image resolution, limiting principled latency-quality trade-offs, and allocate computation uniformly across input spatial tokens, wasting resource allocation to unimportant regions. We introduce Elastic Latent Interface Transformer (ELIT), a drop-in, DiT-compatible mechanism that decouples input image size from compute. Our approach inserts a latent interface, a learnable variable-length token sequence on which standard transformer blocks can operate. Lightweight Read and Write cross-attention layers move information between spatial tokens and latents and prioritize important input regions. By training with random dropping of tail latents, ELIT learns to produce importance-ordered representations with earlier latents capturing global structure while later ones contain information to refine details. At inference, the number of latents can be dynamically adjusted to match compute constraints. ELIT is deliberately minimal, adding two cross-attention layers while leaving the rectified flow objective and the DiT stack unchanged. Across datasets and architectures (DiT, U-ViT, HDiT, MM-DiT), ELIT delivers consistent gains. On ImageNet-1K 512px, ELIT delivers an average gain of 35.3% and 39.6% in FID and FDD scores. Project page: https://snap-research.github.io/elit/

Одна модель, множество бюджетов: Эластичные латентные интерфейсы для диффузионных трансформеров

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Аннотация

Support