FlowInOne : Unification de la génération multimodale par flux image-à-image

Résumé

La génération multimodale a longtemps été dominée par des pipelines pilotés par le texte où le langage dicte la vision sans pouvoir raisonner ou créer en son sein. Nous remettons en cause ce paradigme en nous demandant si toutes les modalités, incluant les descriptions textuelles, les dispositions spatiales et les instructions d'édition, peuvent être unifiées en une seule représentation visuelle. Nous présentons FlowInOne, un cadre qui reformule la génération multimodale comme un flux purement visuel, convertissant toutes les entrées en invites visuelles et permettant un pipeline épuré image-entrée, image-sortie gouverné par un unique modèle d'appariement de flux. Cette formulation centrée sur la vision élimine naturellement les goulots d'étranglement d'alignement intermodaux, la planification du bruit et les branches architecturales spécifiques aux tâches, unifiant la génération texte-image, l'édition guidée par la mise en page et le suivi d'instructions visuelles sous un paradigme cohérent. Pour soutenir cela, nous introduisons VisPrompt-5M, un jeu de données à grande échelle de 5 millions de paires d'invites visuelles couvrant des tâches variées incluant la dynamique des forces consciente de la physique et la prédiction de trajectoire, ainsi que VP-Bench, un benchmark rigoureusement organisé évaluant la fidélité aux instructions, la précision spatiale, le réalisme visuel et la cohérence du contenu. Des expériences approfondies démontrent que FlowInOne obtient des performances à la pointe de l'état de l'art sur toutes les tâches de génération unifiée, surpassant à la fois les modèles open-source et les systèmes commerciaux compétitifs, établissant une nouvelle fondation pour la modélisation générative entièrement centrée sur la vision où la perception et la création coexistent dans un espace visuel continu unique.

English

Multimodal generation has long been dominated by text-driven pipelines where language dictates vision but cannot reason or create within it. We challenge this paradigm by asking whether all modalities, including textual descriptions, spatial layouts, and editing instructions, can be unified into a single visual representation. We present FlowInOne, a framework that reformulates multimodal generation as a purely visual flow, converting all inputs into visual prompts and enabling a clean image-in, image-out pipeline governed by a single flow matching model. This vision-centric formulation naturally eliminates cross-modal alignment bottlenecks, noise scheduling, and task-specific architectural branches, unifying text-to-image generation, layout-guided editing, and visual instruction following under one coherent paradigm. To support this, we introduce VisPrompt-5M, a large-scale dataset of 5 million visual prompt pairs spanning diverse tasks including physics-aware force dynamics and trajectory prediction, alongside VP-Bench, a rigorously curated benchmark assessing instruction faithfulness, spatial precision, visual realism, and content consistency. Extensive experiments demonstrate that FlowInOne achieves state-of-the-art performance across all unified generation tasks, surpassing both open-source models and competitive commercial systems, establishing a new foundation for fully vision-centric generative modeling where perception and creation coexist within a single continuous visual space.

FlowInOne : Unification de la génération multimodale par flux image-à-image

FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

Résumé

Support