STARFlow2 : faire le lien entre les modèles de langage et les flots normalisants pour la génération multimodale unifiée
STARFlow2: Bridging Language Models and Normalizing Flows for Unified Multimodal Generation
May 8, 2026
Auteurs: Ying Shen, Tianrong Chen, Yuan Gao, Yizhe Zhang, Yuyang Wang, Miguel Ángel Bautista, Shuangfei Zhai, Joshua M. Susskind, Jiatao Gu
cs.AI
Résumé
Les modèles génératifs profonds ont progressé rapidement dans les domaines du texte et de la vision, motivant le développement de systèmes multimodaux unifiés capables de comprendre, de raisonner sur et de générer des séquences entrelacées de texte et d'images. La plupart des approches existantes combinent la modélisation autorégressive du langage avec des générateurs d'images basés sur la diffusion, héritant ainsi d'une inadéquation structurelle entre la génération causale de texte et le débruitage visuel itératif. Nous observons que les flots normalisants autorégressifs sont des Transformers autorégressifs – partageant le même masque causal, le même mécanisme de cache KV et la même structure de gauche à droite que les LLM – ce qui en fait le paradigme le plus naturel pour une véritable génération multimodale unifiée. Nous présentons STARFlow2, construit sur l'architecture Pretzel qui entrelace verticalement un flux VLM pré-entraîné avec un flux TarFlow via des connexions résiduelles de saut, tous deux opérant sous le même masque causal. Combiné à une conception de flot profond-peu profond et à un espace latent FAE unifié, STARFlow2 permet une génération entrelacée compatible avec le cache, où les sorties textuelles et visuelles entrent directement dans le cache KV sans nécessiter de réencodage. Les expériences démontrent de solides performances sur des benchmarks de génération d'images et de compréhension multimodale, validant les flots autorégressifs comme une base viable pour la modélisation multimodale unifiée.
English
Deep generative models have advanced rapidly across text and vision, motivating unified multimodal systems that can understand, reason over, and generate interleaved text-image sequences. Most existing approaches combine autoregressive language modeling with diffusion-based image generators, inheriting a structural mismatch between causal text generation and iterative visual denoising. We observe that autoregressive normalizing flows are autoregressive Transformers--sharing the same causal mask, KV-cache mechanism, and left-to-right structure as LLMs--making them the most natural paradigm for true unified multimodal generation. We present STARFlow2, built on the Pretzel architecture that vertically interleaves a pretrained VLM stream with a TarFlow stream via residual skip connections, both operating under the same causal mask. Combined with a deep-shallow flow design and a unified FAE latent space, STARFlow2 enables cache-friendly interleaved generation where both text and visual outputs directly enter the KV-cache without re-encoding. Experiments demonstrate strong performance across image generation and multimodal understanding benchmarks, validating autoregressive flows as a viable foundation for unified multimodal modeling.