FlowInOne: Унификация мультимодальной генерации как потокового согласования по схеме «изображение на входе

Аннотация

Мультимодальная генерация долгое время доминировалась тексто-ориентированными конвейерами, где язык диктует визуальное содержание, но не способен рассуждать или творить внутри него. Мы оспариваем эту парадигму, задаваясь вопросом: можно ли все модальности, включая текстовые описания, пространственные компоновки и инструкции редактирования, унифицировать в едином визуальном представлении. Мы представляем FlowInOne — фреймворк, который переформулирует мультимодальную генерацию как чисто визуальный поток, преобразуя все входные данные в визуальные промпты и обеспечивая чистый конвейер «изображение-в-изображение-наружу», управляемый единой моделью согласования потоков. Эта визуально-центричная формулировка естественным образом устраняет узкие места межмодального согласования, планирования шума и специализированных архитектурных ветвей для конкретных задач, объединяя генерацию по тексту, редактирование по компоновке и следование визуальным инструкциям в единой связной парадигме. Для поддержки этого мы представляем VisPrompt-5M — масштабный набор данных из 5 миллионов пар визуальных промптов, охватывающих разнообразные задачи, включая физически осознанную динамику сил и прогнозирование траекторий, а также VP-Bench — тщательно отобранный бенчмарк, оценивающий верность инструкциям, пространственную точность, визуальный реализм и содержательную согласованность. Многочисленные эксперименты демонстрируют, что FlowInOne достигает наилучшей производительности по всем унифицированным задачам генерации, превосходя как открытые модели, так и конкурентоспособные коммерческие системы, закладывая новую основу для полностью визуально-центричного генеративного моделирования, где восприятие и созидание сосуществуют в едином непрерывном визуальном пространстве.

English

Multimodal generation has long been dominated by text-driven pipelines where language dictates vision but cannot reason or create within it. We challenge this paradigm by asking whether all modalities, including textual descriptions, spatial layouts, and editing instructions, can be unified into a single visual representation. We present FlowInOne, a framework that reformulates multimodal generation as a purely visual flow, converting all inputs into visual prompts and enabling a clean image-in, image-out pipeline governed by a single flow matching model. This vision-centric formulation naturally eliminates cross-modal alignment bottlenecks, noise scheduling, and task-specific architectural branches, unifying text-to-image generation, layout-guided editing, and visual instruction following under one coherent paradigm. To support this, we introduce VisPrompt-5M, a large-scale dataset of 5 million visual prompt pairs spanning diverse tasks including physics-aware force dynamics and trajectory prediction, alongside VP-Bench, a rigorously curated benchmark assessing instruction faithfulness, spatial precision, visual realism, and content consistency. Extensive experiments demonstrate that FlowInOne achieves state-of-the-art performance across all unified generation tasks, surpassing both open-source models and competitive commercial systems, establishing a new foundation for fully vision-centric generative modeling where perception and creation coexist within a single continuous visual space.

FlowInOne: Унификация мультимодальной генерации как потокового согласования по схеме «изображение на входе — изображение на выходе»

FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

Аннотация

Support