LaTtE-Flow: Laaggewijs Tijdstap-Expert Stroomgebaseerde Transformer

Samenvatting

Recente vooruitgang in multimodale foundation-modellen die beeldbegrip en -generatie verenigen, heeft spannende mogelijkheden geopend voor het aanpakken van een breed scala aan visie-taal taken binnen één enkel raamwerk. Ondanks de vooruitgang vereisen bestaande verenigde modellen doorgaans uitgebreide voorafgaande training en hebben ze moeite om hetzelfde prestatieniveau te bereiken als modellen die specifiek voor elke taak zijn ontworpen. Bovendien lijden veel van deze modellen onder trage beeldgeneratiesnelheden, wat hun praktische inzet in realtime of resourcebeperkte omgevingen beperkt. In dit werk stellen we Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow) voor, een nieuwe en efficiënte architectuur die beeldbegrip en -generatie verenigt binnen één multimodaal model. LaTtE-Flow bouwt voort op krachtige vooraf getrainde Vision-Language Models (VLMs) om sterke multimodale begripscapaciteiten te erven, en breidt deze uit met een nieuwe Layerwise Timestep Experts flow-based architectuur voor efficiënte beeldgeneratie. LaTtE-Flow verdeelt het flow-matching proces over gespecialiseerde groepen Transformer-lagen, waarbij elke groep verantwoordelijk is voor een afzonderlijke subset van timesteps. Dit ontwerp verbetert de samplingefficiëntie aanzienlijk door slechts een kleine subset van lagen bij elke sampling-timestep te activeren. Om de prestaties verder te verbeteren, stellen we een Timestep-Conditioned Residual Attention mechanisme voor voor efficiënt hergebruik van informatie tussen lagen. Experimenten tonen aan dat LaTtE-Flow sterke prestaties levert op multimodale begripstaken, terwijl het competitieve beeldgeneratiekwaliteit bereikt met ongeveer 6x snellere inferentiesnelheid vergeleken met recente verenigde multimodale modellen.

English

Recent advances in multimodal foundation models unifying image understanding and generation have opened exciting avenues for tackling a wide range of vision-language tasks within a single framework. Despite progress, existing unified models typically require extensive pretraining and struggle to achieve the same level of performance compared to models dedicated to each task. Additionally, many of these models suffer from slow image generation speeds, limiting their practical deployment in real-time or resource-constrained settings. In this work, we propose Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow), a novel and efficient architecture that unifies image understanding and generation within a single multimodal model. LaTtE-Flow builds upon powerful pretrained Vision-Language Models (VLMs) to inherit strong multimodal understanding capabilities, and extends them with a novel Layerwise Timestep Experts flow-based architecture for efficient image generation. LaTtE-Flow distributes the flow-matching process across specialized groups of Transformer layers, each responsible for a distinct subset of timesteps. This design significantly improves sampling efficiency by activating only a small subset of layers at each sampling timestep. To further enhance performance, we propose a Timestep-Conditioned Residual Attention mechanism for efficient information reuse across layers. Experiments demonstrate that LaTtE-Flow achieves strong performance on multimodal understanding tasks, while achieving competitive image generation quality with around 6x faster inference speed compared to recent unified multimodal models.

LaTtE-Flow: Laaggewijs Tijdstap-Expert Stroomgebaseerde Transformer

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

Samenvatting

Support