FlowInOne: Vereinheitlichung multimodaler Generierung als Image-in, Image-out Flow Matching

Zusammenfassung

Multimodale Generierung wurde lange von textgesteuerten Pipelines dominiert, bei denen Sprache die visuelle Ebene vorgibt, jedoch nicht in ihr schlussfolgern oder kreativ agieren kann. Wir stellen dieses Paradigma infrage, indem wir untersuchen, ob alle Modalitäten – einschließlich textueller Beschreibungen, räumlicher Anordnungen und Bearbeitungsanweisungen – in einer einzigen visuellen Repräsentation vereinheitlicht werden können. Wir präsentieren FlowInOne, ein Framework, das multimodale Generierung als rein visuellen Fluss neu formuliert. Es wandelt alle Eingaben in visuelle Prompts um und ermöglicht eine schlanke Image-in, Image-out-Pipeline, die von einem einzigen Flow-Matching-Modell gesteuert wird. Diese visuell-zentrierte Formulierung beseitigt natürlicherweise Engpässe bei der cross-modalen Ausrichtung, Rauschplanung und aufgabenspezifische Architekturzweige. Sie vereinheitlicht Text-zu-Bild-Generierung, layoutgesteuerte Bearbeitung und visuelle Befolgung von Anweisungen unter einem kohärenten Paradigma. Zur Unterstützung führen wir VisPrompt-5M ein, einen großangelegten Datensatz mit 5 Millionen visuellen Prompt-Paaren für diverse Aufgaben – einschließlich physikbewusster Kraftdynamiken und Trajektorienvorhersage – sowie VP-Bench, einen rigoros kuratierten Benchmark zur Bewertung von Anweisungstreue, räumlicher Präzision, visueller Realismus und Inhaltskonsistenz. Umfangreiche Experimente belegen, dass FlowInOne bei allen vereinheitlichten Generierungsaufgaben state-of-the-art Leistung erzielt und sowohl Open-Source-Modelle als auch wettbewerbsfähige kommerzielle Systeme übertrifft. Es etabliert damit eine neue Grundlage für vollständig visuell-zentriertes generatives Modellieren, bei dem Wahrnehmung und Erzeugung in einem einzigen kontinuierlichen visuellen Raum koexistieren.

English

Multimodal generation has long been dominated by text-driven pipelines where language dictates vision but cannot reason or create within it. We challenge this paradigm by asking whether all modalities, including textual descriptions, spatial layouts, and editing instructions, can be unified into a single visual representation. We present FlowInOne, a framework that reformulates multimodal generation as a purely visual flow, converting all inputs into visual prompts and enabling a clean image-in, image-out pipeline governed by a single flow matching model. This vision-centric formulation naturally eliminates cross-modal alignment bottlenecks, noise scheduling, and task-specific architectural branches, unifying text-to-image generation, layout-guided editing, and visual instruction following under one coherent paradigm. To support this, we introduce VisPrompt-5M, a large-scale dataset of 5 million visual prompt pairs spanning diverse tasks including physics-aware force dynamics and trajectory prediction, alongside VP-Bench, a rigorously curated benchmark assessing instruction faithfulness, spatial precision, visual realism, and content consistency. Extensive experiments demonstrate that FlowInOne achieves state-of-the-art performance across all unified generation tasks, surpassing both open-source models and competitive commercial systems, establishing a new foundation for fully vision-centric generative modeling where perception and creation coexist within a single continuous visual space.

FlowInOne: Vereinheitlichung multimodaler Generierung als Image-in, Image-out Flow Matching

FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

Zusammenfassung

Support