FlowInOne: Unificação da Geração Multimodal como Correspondência de Fluxo de Imagem para Imagem

Resumo

A geração multimodal tem sido historicamente dominada por pipelines orientados por texto, nos quais a linguagem dita a visão, mas não consegue raciocinar ou criar dentro dela. Desafiamos este paradigma ao questionar se todas as modalidades, incluindo descrições textuais, layouts espaciais e instruções de edição, podem ser unificadas numa única representação visual. Apresentamos o FlowInOne, uma estrutura que reformula a geração multimodal como um fluxo puramente visual, convertendo todas as entradas em *prompts* visuais e permitindo um pipeline limpo de imagem-entrada, imagem-saída, governado por um único modelo de *flow matching*. Esta formulação centrada na visão elimina naturalmente os estrangulamentos de alinhamento cross-modal, o agendamento de ruído e os ramos arquitetónicos específicos por tarefa, unificando a geração de texto para imagem, a edição guiada por layout e o seguimento de instruções visuais sob um paradigma coerente. Para suportar esta abordagem, introduzimos o VisPrompt-5M, um conjunto de dados em larga escala com 5 milhões de pares de *prompts* visuais abrangendo tarefas diversificadas, incluindo dinâmicas de força com consciência física e previsão de trajetórias, juntamente com o VP-Bench, um benchmark rigorosamente curado que avalia a fidelidade à instrução, a precisão espacial, o realismo visual e a consistência de conteúdo. Experimentos extensivos demonstram que o FlowInOne atinge um desempenho de ponta em todas as tarefas de geração unificada, superando tanto modelos de código aberto como sistemas comerciais competitivos, estabelecendo uma nova base para a modelação generativa totalmente centrada na visão, onde a perceção e a criação coexistem num único espaço visual contínuo.

English

Multimodal generation has long been dominated by text-driven pipelines where language dictates vision but cannot reason or create within it. We challenge this paradigm by asking whether all modalities, including textual descriptions, spatial layouts, and editing instructions, can be unified into a single visual representation. We present FlowInOne, a framework that reformulates multimodal generation as a purely visual flow, converting all inputs into visual prompts and enabling a clean image-in, image-out pipeline governed by a single flow matching model. This vision-centric formulation naturally eliminates cross-modal alignment bottlenecks, noise scheduling, and task-specific architectural branches, unifying text-to-image generation, layout-guided editing, and visual instruction following under one coherent paradigm. To support this, we introduce VisPrompt-5M, a large-scale dataset of 5 million visual prompt pairs spanning diverse tasks including physics-aware force dynamics and trajectory prediction, alongside VP-Bench, a rigorously curated benchmark assessing instruction faithfulness, spatial precision, visual realism, and content consistency. Extensive experiments demonstrate that FlowInOne achieves state-of-the-art performance across all unified generation tasks, surpassing both open-source models and competitive commercial systems, establishing a new foundation for fully vision-centric generative modeling where perception and creation coexist within a single continuous visual space.

FlowInOne: Unificação da Geração Multimodal como Correspondência de Fluxo de Imagem para Imagem

FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

Resumo

Support