ChatPaper.aiChatPaper

LaTtE-Flow: Transformador Basado en Flujo con Expertos por Capas y Pasos Temporales

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

June 8, 2025
Autores: Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang
cs.AI

Resumen

Los recientes avances en modelos fundacionales multimodales que unifican la comprensión y generación de imágenes han abierto nuevas y emocionantes vías para abordar una amplia gama de tareas de visión y lenguaje dentro de un único marco. A pesar del progreso, los modelos unificados existentes suelen requerir un extenso preentrenamiento y luchan por alcanzar el mismo nivel de rendimiento en comparación con modelos dedicados a cada tarea. Además, muchos de estos modelos sufren de velocidades lentas en la generación de imágenes, lo que limita su implementación práctica en entornos en tiempo real o con recursos limitados. En este trabajo, proponemos Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow), una arquitectura novedosa y eficiente que unifica la comprensión y generación de imágenes dentro de un único modelo multimodal. LaTtE-Flow se basa en potentes modelos de visión y lenguaje (VLMs) preentrenados para heredar capacidades sólidas de comprensión multimodal, y los extiende con una arquitectura novedosa basada en flujo de expertos por capas y pasos de tiempo para una generación eficiente de imágenes. LaTtE-Flow distribuye el proceso de emparejamiento de flujo entre grupos especializados de capas Transformer, cada uno responsable de un subconjunto distinto de pasos de tiempo. Este diseño mejora significativamente la eficiencia de muestreo al activar solo un pequeño subconjunto de capas en cada paso de muestreo. Para mejorar aún más el rendimiento, proponemos un mecanismo de Atención Residual Condicionada por Pasos de Tiempo para la reutilización eficiente de información entre capas. Los experimentos demuestran que LaTtE-Flow logra un rendimiento sólido en tareas de comprensión multimodal, al tiempo que alcanza una calidad competitiva en la generación de imágenes con una velocidad de inferencia aproximadamente 6 veces más rápida en comparación con modelos multimodales unificados recientes.
English
Recent advances in multimodal foundation models unifying image understanding and generation have opened exciting avenues for tackling a wide range of vision-language tasks within a single framework. Despite progress, existing unified models typically require extensive pretraining and struggle to achieve the same level of performance compared to models dedicated to each task. Additionally, many of these models suffer from slow image generation speeds, limiting their practical deployment in real-time or resource-constrained settings. In this work, we propose Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow), a novel and efficient architecture that unifies image understanding and generation within a single multimodal model. LaTtE-Flow builds upon powerful pretrained Vision-Language Models (VLMs) to inherit strong multimodal understanding capabilities, and extends them with a novel Layerwise Timestep Experts flow-based architecture for efficient image generation. LaTtE-Flow distributes the flow-matching process across specialized groups of Transformer layers, each responsible for a distinct subset of timesteps. This design significantly improves sampling efficiency by activating only a small subset of layers at each sampling timestep. To further enhance performance, we propose a Timestep-Conditioned Residual Attention mechanism for efficient information reuse across layers. Experiments demonstrate that LaTtE-Flow achieves strong performance on multimodal understanding tasks, while achieving competitive image generation quality with around 6x faster inference speed compared to recent unified multimodal models.
PDF92June 13, 2025