FlowInOne: Unificatie van multimodale generatie als beeld-in, beeld-uit flow matching
FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching
April 8, 2026
Auteurs: Junchao Yi, Rui Zhao, Jiahao Tang, Weixian Lei, Linjie Li, Qisheng Su, Zhengyuan Yang, Lijuan Wang, Xiaofeng Zhu, Alex Jinpeng Wang
cs.AI
Samenvatting
Multimodale generatie wordt al lang gedomineerd door tekstgestuurde pijplijnen, waarbij taal de visuele inhoud dicteert maar niet binnen het visuele domein kan redeneren of creëren. Wij dagen dit paradigma uit door ons af te vragen of alle modaliteiten, inclusief tekstuele beschrijvingen, ruimtelijke lay-outs en bewerkingsinstructies, kunnen worden verenigd in een enkele visuele representatie. Wij presenteren FlowInOne, een raamwerk dat multimodale generatie herformuleert als een puur visuele stroom, waarbij alle invoer wordt omgezet in visuele prompts en een schone beeld-in, beeld-uit pijplijn mogelijk maakt, bestuurd door een enkel 'flow matching'-model. Deze visie-centrische formulering elimineert natuurlijk knelpunten in cross-modale alignering, ruisplanning en taakspecifieke architecturale vertakkingen, en verenigt tekst-naar-beeld generatie, lay-out-gestuurd bewerken en het volgen van visuele instructies onder één coherent paradigma. Om dit te ondersteunen, introduceren wij VisPrompt-5M, een grootschalige dataset van 5 miljoen visuele prompt-paren die diverse taken omvat, zoals fysica-bewuste krachtdynamiek en trajectvoorspelling, naast VP-Bench, een streng samengestelde benchmark die de trouw aan instructies, ruimtelijke precisie, visuele realisme en inhoudelijke consistentie beoordeelt. Uitgebreide experimenten tonen aan dat FlowInOne state-of-the-art prestaties bereikt voor alle verenigde generatietaken, waarbij het zowel open-source modellen als concurrerende commerciële systemen overtreft, en zo een nieuwe basis vestigt voor volledig visie-centrische generatieve modellering, waar waarneming en creatie naast elkaar bestaan binnen een enkele doorlopende visuele ruimte.
English
Multimodal generation has long been dominated by text-driven pipelines where language dictates vision but cannot reason or create within it. We challenge this paradigm by asking whether all modalities, including textual descriptions, spatial layouts, and editing instructions, can be unified into a single visual representation. We present FlowInOne, a framework that reformulates multimodal generation as a purely visual flow, converting all inputs into visual prompts and enabling a clean image-in, image-out pipeline governed by a single flow matching model. This vision-centric formulation naturally eliminates cross-modal alignment bottlenecks, noise scheduling, and task-specific architectural branches, unifying text-to-image generation, layout-guided editing, and visual instruction following under one coherent paradigm. To support this, we introduce VisPrompt-5M, a large-scale dataset of 5 million visual prompt pairs spanning diverse tasks including physics-aware force dynamics and trajectory prediction, alongside VP-Bench, a rigorously curated benchmark assessing instruction faithfulness, spatial precision, visual realism, and content consistency. Extensive experiments demonstrate that FlowInOne achieves state-of-the-art performance across all unified generation tasks, surpassing both open-source models and competitive commercial systems, establishing a new foundation for fully vision-centric generative modeling where perception and creation coexist within a single continuous visual space.