ChatPaper.aiChatPaper

LaTtE-Flow: Schichtweiser Zeitschritt-Experten-Flow-basierter Transformer

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

June 8, 2025
Autoren: Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang
cs.AI

Zusammenfassung

Jüngste Fortschritte in multimodalen Basismodellen, die Bildverständnis und -generierung vereinen, haben spannende Möglichkeiten eröffnet, um eine Vielzahl von Vision-Sprache-Aufgaben innerhalb eines einzigen Frameworks zu bewältigen. Trotz der Fortschritte benötigen bestehende vereinheitlichte Modelle in der Regel umfangreiches Vorabtraining und erreichen oft nicht das gleiche Leistungsniveau wie Modelle, die speziell für jede Aufgabe entwickelt wurden. Darüber hinaus leiden viele dieser Modelle unter langsamen Bildgenerierungsgeschwindigkeiten, was ihre praktische Anwendung in Echtzeit- oder ressourcenbeschränkten Umgebungen einschränkt. In dieser Arbeit schlagen wir Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow) vor, eine neuartige und effiziente Architektur, die Bildverständnis und -generierung innerhalb eines einzigen multimodalen Modells vereint. LaTtE-Flow baut auf leistungsstarken vortrainierten Vision-Language-Modellen (VLMs) auf, um starke multimodale Verständnisfähigkeiten zu erben, und erweitert diese mit einer neuartigen Layerwise Timestep Experts Flow-basierten Architektur für effiziente Bildgenerierung. LaTtE-Flow verteilt den Flow-Matching-Prozess auf spezialisierte Gruppen von Transformer-Schichten, die jeweils für eine bestimmte Teilmenge von Zeitschritten verantwortlich sind. Dieser Entwurf verbessert die Sampling-Effizienz erheblich, indem nur eine kleine Teilmenge der Schichten bei jedem Sampling-Zeitschritt aktiviert wird. Um die Leistung weiter zu steigern, schlagen wir einen Timestep-Conditioned Residual Attention-Mechanismus für die effiziente Wiederverwendung von Informationen über Schichten hinweg vor. Experimente zeigen, dass LaTtE-Flow eine starke Leistung bei multimodalen Verständnisaufgaben erzielt und dabei eine wettbewerbsfähige Bildgenerierungsqualität mit etwa 6-fach schnellerer Inferenzgeschwindigkeit im Vergleich zu aktuellen vereinheitlichten multimodalen Modellen erreicht.
English
Recent advances in multimodal foundation models unifying image understanding and generation have opened exciting avenues for tackling a wide range of vision-language tasks within a single framework. Despite progress, existing unified models typically require extensive pretraining and struggle to achieve the same level of performance compared to models dedicated to each task. Additionally, many of these models suffer from slow image generation speeds, limiting their practical deployment in real-time or resource-constrained settings. In this work, we propose Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow), a novel and efficient architecture that unifies image understanding and generation within a single multimodal model. LaTtE-Flow builds upon powerful pretrained Vision-Language Models (VLMs) to inherit strong multimodal understanding capabilities, and extends them with a novel Layerwise Timestep Experts flow-based architecture for efficient image generation. LaTtE-Flow distributes the flow-matching process across specialized groups of Transformer layers, each responsible for a distinct subset of timesteps. This design significantly improves sampling efficiency by activating only a small subset of layers at each sampling timestep. To further enhance performance, we propose a Timestep-Conditioned Residual Attention mechanism for efficient information reuse across layers. Experiments demonstrate that LaTtE-Flow achieves strong performance on multimodal understanding tasks, while achieving competitive image generation quality with around 6x faster inference speed compared to recent unified multimodal models.
PDF92June 13, 2025