ELT: Трансформеры с эластичными петлями для визуальной генерации

Аннотация

Мы представляем Elastic Looped Transformers (ELT) — высокоэффективный по параметрам класс визуальных генеративных моделей на основе рекуррентной трансформаторной архитектуры. В то время как традиционные генеративные модели опираются на глубокие стеки уникальных трансформаторных слоёв, наш подход использует итеративные трансформаторные блоки с общими весами, что позволяет радикально сократить количество параметров при сохранении высокого качества синтеза. Для эффективного обучения этих моделей для генерации изображений и видео мы предлагаем метод внутрицикловой самодистилляции (Intra-Loop Self Distillation, ILSD), при котором студенческие конфигурации (промежуточные циклы) дистиллируются из учительской конфигурации (максимальные тренировочные циклы) для обеспечения согласованности по глубине модели на одном шаге обучения. Наша framework порождает семейство эластичных моделей из единственного прогона обучения, обеспечивая возможность Any-Time вывода с динамическим балансом между вычислительной стоимостью и качеством генерации при неизменном количестве параметров. ELT существенно смещает границу эффективности для визуального синтеза. При четырёхкратном сокращении числа параметров в условиях эквивалентных вычислительных затрат на вывод ELT достигает конкурентоспособного FID 2.0 на class-conditional ImageNet 256×256 и FVD 72.8 на class-conditional UCF-101.

English

We introduce Elastic Looped Transformers (ELT), a highly parameter-efficient class of visual generative models based on a recurrent transformer architecture. While conventional generative models rely on deep stacks of unique transformer layers, our approach employs iterative, weight-shared transformer blocks to drastically reduce parameter counts while maintaining high synthesis quality. To effectively train these models for image and video generation, we propose the idea of Intra-Loop Self Distillation (ILSD), where student configurations (intermediate loops) are distilled from the teacher configuration (maximum training loops) to ensure consistency across the model's depth in a single training step. Our framework yields a family of elastic models from a single training run, enabling Any-Time inference capability with dynamic trade-offs between computational cost and generation quality, with the same parameter count. ELT significantly shifts the efficiency frontier for visual synthesis. With 4times reduction in parameter count under iso-inference-compute settings, ELT achieves a competitive FID of 2.0 on class-conditional ImageNet 256 times 256 and FVD of 72.8 on class-conditional UCF-101.

ELT: Трансформеры с эластичными петлями для визуальной генерации

ELT: Elastic Looped Transformers for Visual Generation

Аннотация

Support