STARFlow2: Integración de Modelos de Lenguaje y Flujos Normalizadores para la Generación Multimodal Unificada

Resumen

Los modelos generativos profundos han avanzado rápidamente en los dominios de texto y visión, impulsando el desarrollo de sistemas multimodales unificados que pueden comprender, razonar y generar secuencias intercaladas de texto e imágenes. La mayoría de los enfoques existentes combinan modelos de lenguaje autorregresivos con generadores de imágenes basados en difusión, heredando una discrepancia estructural entre la generación causal de texto y la desvisualización iterativa. Observamos que los flujos normalizadores autorregresivos son Transformers autorregresivos—compartiendo la misma máscara causal, el mecanismo de caché KV y la estructura de izquierda a derecha que los LLM—lo que los convierte en el paradigma más natural para una generación multimodal verdaderamente unificada. Presentamos STARFlow2, construido sobre la arquitectura Pretzel que intercala verticalmente un flujo de VLM preentrenado con un flujo TarFlow mediante conexiones residuales, ambos operando bajo la misma máscara causal. Combinado con un diseño de flujo profundo-superficial y un espacio latente FAE unificado, STARFlow2 permite una generación intercalada eficiente en términos de caché, donde tanto las salidas de texto como las visuales ingresan directamente a la caché KV sin necesidad de recodificación. Los experimentos demuestran un rendimiento sólido en benchmarks de generación de imágenes y comprensión multimodal, validando los flujos autorregresivos como una base viable para el modelado multimodal unificado.

English

Deep generative models have advanced rapidly across text and vision, motivating unified multimodal systems that can understand, reason over, and generate interleaved text-image sequences. Most existing approaches combine autoregressive language modeling with diffusion-based image generators, inheriting a structural mismatch between causal text generation and iterative visual denoising. We observe that autoregressive normalizing flows are autoregressive Transformers--sharing the same causal mask, KV-cache mechanism, and left-to-right structure as LLMs--making them the most natural paradigm for true unified multimodal generation. We present STARFlow2, built on the Pretzel architecture that vertically interleaves a pretrained VLM stream with a TarFlow stream via residual skip connections, both operating under the same causal mask. Combined with a deep-shallow flow design and a unified FAE latent space, STARFlow2 enables cache-friendly interleaved generation where both text and visual outputs directly enter the KV-cache without re-encoding. Experiments demonstrate strong performance across image generation and multimodal understanding benchmarks, validating autoregressive flows as a viable foundation for unified multimodal modeling.

STARFlow2: Integración de Modelos de Lenguaje y Flujos Normalizadores para la Generación Multimodal Unificada

STARFlow2: Bridging Language Models and Normalizing Flows for Unified Multimodal Generation

Resumen

Support