ChatPaper.aiChatPaper

LaTtE-Flow : Transformer à flux basé sur des experts par pas de temps et par couche

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

June 8, 2025
Auteurs: Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang
cs.AI

Résumé

Les récents progrès dans les modèles de fondation multimodaux unifiant la compréhension et la génération d'images ont ouvert des perspectives passionnantes pour aborder un large éventail de tâches vision-langage au sein d'un même cadre. Malgré ces avancées, les modèles unifiés existants nécessitent généralement un pré-entraînement intensif et peinent à atteindre le même niveau de performance que les modèles dédiés à chaque tâche. De plus, bon nombre de ces modèles souffrent de vitesses de génération d'images lentes, limitant leur déploiement pratique dans des contextes en temps réel ou à ressources limitées. Dans ce travail, nous proposons Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow), une architecture novatrice et efficace qui unifie la compréhension et la génération d'images au sein d'un seul modèle multimodal. LaTtE-Flow s'appuie sur des modèles vision-langage (VLMs) pré-entraînés puissants pour hériter de solides capacités de compréhension multimodale, et les étend avec une architecture innovante basée sur des experts temporels par couches pour une génération d'images efficace. LaTtE-Flow répartit le processus de correspondance de flux entre des groupes spécialisés de couches Transformer, chacun étant responsable d'un sous-ensemble distinct d'étapes temporelles. Cette conception améliore significativement l'efficacité de l'échantillonnage en activant seulement un petit sous-ensemble de couches à chaque étape d'échantillonnage. Pour renforcer encore les performances, nous proposons un mécanisme d'attention résiduelle conditionnée par l'étape temporelle pour une réutilisation efficace de l'information entre les couches. Les expériences démontrent que LaTtE-Flow atteint des performances solides sur les tâches de compréhension multimodale, tout en obtenant une qualité de génération d'images compétitive avec une vitesse d'inférence environ 6 fois plus rapide que les modèles multimodaux unifiés récents.
English
Recent advances in multimodal foundation models unifying image understanding and generation have opened exciting avenues for tackling a wide range of vision-language tasks within a single framework. Despite progress, existing unified models typically require extensive pretraining and struggle to achieve the same level of performance compared to models dedicated to each task. Additionally, many of these models suffer from slow image generation speeds, limiting their practical deployment in real-time or resource-constrained settings. In this work, we propose Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow), a novel and efficient architecture that unifies image understanding and generation within a single multimodal model. LaTtE-Flow builds upon powerful pretrained Vision-Language Models (VLMs) to inherit strong multimodal understanding capabilities, and extends them with a novel Layerwise Timestep Experts flow-based architecture for efficient image generation. LaTtE-Flow distributes the flow-matching process across specialized groups of Transformer layers, each responsible for a distinct subset of timesteps. This design significantly improves sampling efficiency by activating only a small subset of layers at each sampling timestep. To further enhance performance, we propose a Timestep-Conditioned Residual Attention mechanism for efficient information reuse across layers. Experiments demonstrate that LaTtE-Flow achieves strong performance on multimodal understanding tasks, while achieving competitive image generation quality with around 6x faster inference speed compared to recent unified multimodal models.
PDF92June 13, 2025