ChatPaper.aiChatPaper

LaTtE-Flow: Trasformatore a Flusso Basato su Esperti Temporali Stratificati

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

June 8, 2025
Autori: Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang
cs.AI

Abstract

I recenti progressi nei modelli fondazionali multimodali che unificano la comprensione e la generazione di immagini hanno aperto nuove e entusiasmanti possibilità per affrontare un'ampia gamma di compiti di visione e linguaggio all'interno di un unico framework. Nonostante i progressi, i modelli unificati esistenti richiedono tipicamente un'estesa pre-addestramento e faticano a raggiungere lo stesso livello di prestazioni rispetto ai modelli dedicati a ciascun compito. Inoltre, molti di questi modelli soffrono di velocità di generazione delle immagini lente, limitando il loro impiego pratico in contesti in tempo reale o con risorse limitate. In questo lavoro, proponiamo Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow), un'architettura innovativa ed efficiente che unisce la comprensione e la generazione di immagini all'interno di un unico modello multimodale. LaTtE-Flow si basa su potenti modelli pre-addestrati di visione e linguaggio (VLMs) per ereditare solide capacità di comprensione multimodale, e li estende con una nuova architettura basata su flusso di Layerwise Timestep Experts per una generazione efficiente delle immagini. LaTtE-Flow distribuisce il processo di flow-matching tra gruppi specializzati di layer Transformer, ciascuno responsabile di un sottoinsieme distinto di timestep. Questo design migliora significativamente l'efficienza del campionamento attivando solo un piccolo sottoinsieme di layer a ciascun timestep di campionamento. Per ulteriormente migliorare le prestazioni, proponiamo un meccanismo di Timestep-Conditioned Residual Attention per un riutilizzo efficiente delle informazioni tra i layer. Gli esperimenti dimostrano che LaTtE-Flow raggiunge prestazioni solide nei compiti di comprensione multimodale, ottenendo una qualità di generazione delle immagini competitiva con una velocità di inferenza circa 6 volte più veloce rispetto ai recenti modelli multimodali unificati.
English
Recent advances in multimodal foundation models unifying image understanding and generation have opened exciting avenues for tackling a wide range of vision-language tasks within a single framework. Despite progress, existing unified models typically require extensive pretraining and struggle to achieve the same level of performance compared to models dedicated to each task. Additionally, many of these models suffer from slow image generation speeds, limiting their practical deployment in real-time or resource-constrained settings. In this work, we propose Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow), a novel and efficient architecture that unifies image understanding and generation within a single multimodal model. LaTtE-Flow builds upon powerful pretrained Vision-Language Models (VLMs) to inherit strong multimodal understanding capabilities, and extends them with a novel Layerwise Timestep Experts flow-based architecture for efficient image generation. LaTtE-Flow distributes the flow-matching process across specialized groups of Transformer layers, each responsible for a distinct subset of timesteps. This design significantly improves sampling efficiency by activating only a small subset of layers at each sampling timestep. To further enhance performance, we propose a Timestep-Conditioned Residual Attention mechanism for efficient information reuse across layers. Experiments demonstrate that LaTtE-Flow achieves strong performance on multimodal understanding tasks, while achieving competitive image generation quality with around 6x faster inference speed compared to recent unified multimodal models.
PDF92June 13, 2025