LaTtE-Flow: Послойный потоковый трансформер с экспертами по временным шагам
LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer
June 8, 2025
Авторы: Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang
cs.AI
Аннотация
Последние достижения в области мультимодальных базовых моделей, объединяющих понимание и генерацию изображений, открыли новые перспективы для решения широкого спектра задач на стыке зрения и языка в рамках единой архитектуры. Несмотря на прогресс, существующие унифицированные модели, как правило, требуют длительного предварительного обучения и не достигают уровня производительности, сравнимого с моделями, специализированными для каждой задачи. Кроме того, многие из этих моделей страдают от низкой скорости генерации изображений, что ограничивает их практическое применение в условиях реального времени или при ограниченных ресурсах. В данной работе мы предлагаем Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow) — новую и эффективную архитектуру, которая объединяет понимание и генерацию изображений в рамках единой мультимодальной модели. LaTtE-Flow основывается на мощных предобученных моделях для задач зрения и языка (VLMs), наследуя их сильные мультимодальные способности, и расширяет их с помощью новой архитектуры на основе Layerwise Timestep Experts для эффективной генерации изображений. LaTtE-Flow распределяет процесс flow-matching между специализированными группами слоев Transformer, каждая из которых отвечает за отдельный подмножество временных шагов. Такой подход значительно повышает эффективность выборки, активируя только небольшое подмножество слоев на каждом шаге выборки. Для дальнейшего улучшения производительности мы предлагаем механизм Timestep-Conditioned Residual Attention, обеспечивающий эффективное повторное использование информации между слоями. Эксперименты показывают, что LaTtE-Flow демонстрирует высокую производительность на задачах мультимодального понимания, при этом достигая конкурентоспособного качества генерации изображений с ускорением вывода примерно в 6 раз по сравнению с современными унифицированными мультимодальными моделями.
English
Recent advances in multimodal foundation models unifying image understanding
and generation have opened exciting avenues for tackling a wide range of
vision-language tasks within a single framework. Despite progress, existing
unified models typically require extensive pretraining and struggle to achieve
the same level of performance compared to models dedicated to each task.
Additionally, many of these models suffer from slow image generation speeds,
limiting their practical deployment in real-time or resource-constrained
settings. In this work, we propose Layerwise Timestep-Expert Flow-based
Transformer (LaTtE-Flow), a novel and efficient architecture that unifies image
understanding and generation within a single multimodal model. LaTtE-Flow
builds upon powerful pretrained Vision-Language Models (VLMs) to inherit strong
multimodal understanding capabilities, and extends them with a novel Layerwise
Timestep Experts flow-based architecture for efficient image generation.
LaTtE-Flow distributes the flow-matching process across specialized groups of
Transformer layers, each responsible for a distinct subset of timesteps. This
design significantly improves sampling efficiency by activating only a small
subset of layers at each sampling timestep. To further enhance performance, we
propose a Timestep-Conditioned Residual Attention mechanism for efficient
information reuse across layers. Experiments demonstrate that LaTtE-Flow
achieves strong performance on multimodal understanding tasks, while achieving
competitive image generation quality with around 6x faster inference speed
compared to recent unified multimodal models.