FlowInOne: Unificación de la Generación Multimodal como Flujo de Imagen-entrada, Imagen-salida mediante Emparejamiento de Flujos

Resumen

La generación multimodal ha estado dominada durante mucho tiempo por canalizaciones impulsadas por texto, donde el lenguaje dicta la visión pero no puede razonar ni crear dentro de ella. Desafiamos este paradigma preguntándonos si todas las modalidades, incluidas las descripciones textuales, los diseños espaciales y las instrucciones de edición, pueden unificarse en una única representación visual. Presentamos FlowInOne, un marco que reformula la generación multimodal como un flujo puramente visual, convirtiendo todas las entradas en indicaciones visuales y permitiendo una canalización limpia de imagen-entrada, imagen-salida gobernada por un único modelo de emparejamiento de flujos. Esta formulación centrada en la visión elimina naturalmente los cuellos de botella de alineación multimodal, la programación de ruido y las ramas arquitectónicas específicas de tareas, unificando la generación de texto a imagen, la edición guiada por diseño y el seguimiento de instrucciones visuales bajo un paradigma coherente. Para respaldar esto, presentamos VisPrompt-5M, un conjunto de datos a gran escala de 5 millones de pares de indicaciones visuales que abarcan diversas tareas, incluida la dinámica de fuerzas consciente de la física y la predicción de trayectorias, junto con VP-Bench, un punto de referencia rigurosamente curado que evalúa la fidelidad a la instrucción, la precisión espacial, el realismo visual y la consistencia del contenido. Experimentos exhaustivos demuestran que FlowInOne logra un rendimiento de vanguardia en todas las tareas de generación unificada, superando tanto a los modelos de código abierto como a los sistemas comerciales competitivos, estableciendo una nueva base para el modelado generativo completamente céntrico en la visión, donde la percepción y la creación coexisten dentro de un único espacio visual continuo.

English

Multimodal generation has long been dominated by text-driven pipelines where language dictates vision but cannot reason or create within it. We challenge this paradigm by asking whether all modalities, including textual descriptions, spatial layouts, and editing instructions, can be unified into a single visual representation. We present FlowInOne, a framework that reformulates multimodal generation as a purely visual flow, converting all inputs into visual prompts and enabling a clean image-in, image-out pipeline governed by a single flow matching model. This vision-centric formulation naturally eliminates cross-modal alignment bottlenecks, noise scheduling, and task-specific architectural branches, unifying text-to-image generation, layout-guided editing, and visual instruction following under one coherent paradigm. To support this, we introduce VisPrompt-5M, a large-scale dataset of 5 million visual prompt pairs spanning diverse tasks including physics-aware force dynamics and trajectory prediction, alongside VP-Bench, a rigorously curated benchmark assessing instruction faithfulness, spatial precision, visual realism, and content consistency. Extensive experiments demonstrate that FlowInOne achieves state-of-the-art performance across all unified generation tasks, surpassing both open-source models and competitive commercial systems, establishing a new foundation for fully vision-centric generative modeling where perception and creation coexist within a single continuous visual space.

FlowInOne: Unificación de la Generación Multimodal como Flujo de Imagen-entrada, Imagen-salida mediante Emparejamiento de Flujos

FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

Resumen

Support