FlowInOne: Unificazione della Generazione Multimodale come Flusso di Immagini in Input e Output

Abstract

La generazione multimodale è stata a lungo dominata da pipeline guidate dal testo, in cui il linguaggio detta la visione ma non può ragionare o creare al suo interno. Sfidiamo questo paradigma chiedendoci se tutte le modalità, incluse descrizioni testuali, layout spaziali e istruzioni di modifica, possano essere unificate in un'unica rappresentazione visiva. Presentiamo FlowInOne, un framework che riformula la generazione multimodale come un flusso puramente visivo, convertendo tutti gli input in prompt visivi e abilitando una pipeline pulita image-in, image-out governata da un singolo modello di flow matching. Questa formulazione centrata sulla visione elimina naturalmente i colli di bottiglia dell'allineamento cross-modale, la schedulazione del rumore e i rami architetturali specifici per task, unificando la generazione testo-immagine, l'editing guidato da layout e il follow-up di istruzioni visive sotto un unico paradigma coerente. A supporto di ciò, introduciamo VisPrompt-5M, un dataset su larga scala di 5 milioni di coppie di prompt visivi che coprono task diversificati, inclusi la dinamica delle forze con consapevolezza fisica e la predizione di traiettorie, insieme a VP-Bench, un benchmark rigorosamente curato che valuta la fedeltà alle istruzioni, la precisione spaziale, il realismo visivo e la coerenza del contenuto. Esperimenti estensivi dimostrano che FlowInOne raggiunge prestazioni allo stato dell'arte in tutti i task di generazione unificati, superando sia modelli open-source che sistemi commerciali competitivi, stabilendo una nuova base per la modellazione generativa completamente vision-centrica dove percezione e creazione coesistono in un unico spazio visivo continuo.

English

Multimodal generation has long been dominated by text-driven pipelines where language dictates vision but cannot reason or create within it. We challenge this paradigm by asking whether all modalities, including textual descriptions, spatial layouts, and editing instructions, can be unified into a single visual representation. We present FlowInOne, a framework that reformulates multimodal generation as a purely visual flow, converting all inputs into visual prompts and enabling a clean image-in, image-out pipeline governed by a single flow matching model. This vision-centric formulation naturally eliminates cross-modal alignment bottlenecks, noise scheduling, and task-specific architectural branches, unifying text-to-image generation, layout-guided editing, and visual instruction following under one coherent paradigm. To support this, we introduce VisPrompt-5M, a large-scale dataset of 5 million visual prompt pairs spanning diverse tasks including physics-aware force dynamics and trajectory prediction, alongside VP-Bench, a rigorously curated benchmark assessing instruction faithfulness, spatial precision, visual realism, and content consistency. Extensive experiments demonstrate that FlowInOne achieves state-of-the-art performance across all unified generation tasks, surpassing both open-source models and competitive commercial systems, establishing a new foundation for fully vision-centric generative modeling where perception and creation coexist within a single continuous visual space.

FlowInOne: Unificazione della Generazione Multimodale come Flusso di Immagini in Input e Output

FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

Abstract

Support