STARFlow2: Brückenschlag zwischen Sprachmodellen und normalisierenden Flüssen für vereinheitlichte multimodale Generierung
STARFlow2: Bridging Language Models and Normalizing Flows for Unified Multimodal Generation
May 8, 2026
Autoren: Ying Shen, Tianrong Chen, Yuan Gao, Yizhe Zhang, Yuyang Wang, Miguel Ángel Bautista, Shuangfei Zhai, Joshua M. Susskind, Jiatao Gu
cs.AI
Zusammenfassung
Tiefe generative Modelle haben sich im Bereich Text und Bild rasant weiterentwickelt und motivieren einheitliche multimodale Systeme, die verschachtelte Text-Bild-Sequenzen verstehen, darüber nachdenken und sie erzeugen können. Die meisten bestehenden Ansätze kombinieren autoregressives Sprachmodellieren mit diffusionsbasierten Bildgeneratoren und erben damit eine strukturelle Diskrepanz zwischen kausaler Texterzeugung und iterativer visueller Entrauschung. Wir beobachten, dass autoregressive normalisierende Flüsse autoregressive Transformer sind – sie teilen dieselbe kausale Maske, denselben KV-Cache-Mechanismus und dieselbe Links-nach-Rechts-Struktur wie LLMs – und somit das natürlichste Paradigma für eine wirklich einheitliche multimodale Generierung darstellen. Wir präsentieren STARFlow2, das auf der Pretzel-Architektur aufbaut, die einen vortrainierten VLM-Stream vertikal mit einem TarFlow-Stream über residuale Skip-Verbindungen verschachtelt, beide unter derselben kausalen Maske. In Kombination mit einem Tief-Flach-Fluss-Design und einem einheitlichen FAE-Latentraum ermöglicht STARFlow2 eine cache-freundliche verschachtelte Generierung, bei der sowohl Text- als auch visuelle Ausgaben direkt in den KV-Cache eingehen, ohne erneute Kodierung. Experimente zeigen eine starke Leistung bei Bildgenerierungs- und multimodalien Verständnis-Benchmarks und bestätigen autoregressive Flüsse als tragfähige Grundlage für einheitliche multimodale Modellierung.
English
Deep generative models have advanced rapidly across text and vision, motivating unified multimodal systems that can understand, reason over, and generate interleaved text-image sequences. Most existing approaches combine autoregressive language modeling with diffusion-based image generators, inheriting a structural mismatch between causal text generation and iterative visual denoising. We observe that autoregressive normalizing flows are autoregressive Transformers--sharing the same causal mask, KV-cache mechanism, and left-to-right structure as LLMs--making them the most natural paradigm for true unified multimodal generation. We present STARFlow2, built on the Pretzel architecture that vertically interleaves a pretrained VLM stream with a TarFlow stream via residual skip connections, both operating under the same causal mask. Combined with a deep-shallow flow design and a unified FAE latent space, STARFlow2 enables cache-friendly interleaved generation where both text and visual outputs directly enter the KV-cache without re-encoding. Experiments demonstrate strong performance across image generation and multimodal understanding benchmarks, validating autoregressive flows as a viable foundation for unified multimodal modeling.