FlowInOne: 이미지 입력-이미지 출력 흐름 매칭으로 통합하는 멀티모달 생성
FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching
April 8, 2026
저자: Junchao Yi, Rui Zhao, Jiahao Tang, Weixian Lei, Linjie Li, Qisheng Su, Zhengyuan Yang, Lijuan Wang, Xiaofeng Zhu, Alex Jinpeng Wang
cs.AI
초록
다중모달 생성은 오랫동안 언어가 시각을 지시하지만 그 안에서 추론하거나 창조할 수 없는 텍스트 주도 파이프라인에 지배되어 왔습니다. 본 연구는 텍스트 설명, 공간 레이아웃, 편집 지시를 포함한 모든 양식이 단일 시각적 표현으로 통합될 수 있는지 질문함으로써 이러한 패러다임에 도전합니다. 우리는 모든 입력을 시각적 프롬프트로 변환하고 단일 흐름 매칭 모델로 제어되는 깔끔한 이미지-입력, 이미지-출력 파이프라인을 가능하게 하여 다중모달 생성을 순수한 시각적 흐름으로 재구성하는 FlowInOne 프레임워크를 제시합니다. 이러한 시각 중심 구성은 자연스럽게 교차 양식 정렬 병목 현상, 노이즈 스케줄링, 작업별 아키텍처 분기를 제거하며 텍스트-이미지 생성, 레이아웃 기반 편집, 시각적 지시 수행을 일관된 패러다임 아래 통합합니다. 이를 지원하기 위해 물리 인식 힘 역학 및 궤적 예측을 포함한 다양한 작업을 아우르는 500만 개의 시각적 프롬프트 쌍으로 구성된 대규모 데이터셋 VisPrompt-5M과 지시 충실도, 공간 정밀도, 시각적 현실성, 내용 일관성을 평가하는 엄격하게 선별된 벤치마크 VP-Bench을 도입했습니다. 광범위한 실험을 통해 FlowInOne이 통합 생성 작업 전반에서 오픈소스 모델과 경쟁력 있는 상용 시스템을 모두 능가하는 최첨단 성능을 달성함으로써 인지와 창조가 단일 연속 시각 공간 내에 공존하는 완전한 시각 중심 생성 모델링의 새로운 기초를 확립하였습니다.
English
Multimodal generation has long been dominated by text-driven pipelines where language dictates vision but cannot reason or create within it. We challenge this paradigm by asking whether all modalities, including textual descriptions, spatial layouts, and editing instructions, can be unified into a single visual representation. We present FlowInOne, a framework that reformulates multimodal generation as a purely visual flow, converting all inputs into visual prompts and enabling a clean image-in, image-out pipeline governed by a single flow matching model. This vision-centric formulation naturally eliminates cross-modal alignment bottlenecks, noise scheduling, and task-specific architectural branches, unifying text-to-image generation, layout-guided editing, and visual instruction following under one coherent paradigm. To support this, we introduce VisPrompt-5M, a large-scale dataset of 5 million visual prompt pairs spanning diverse tasks including physics-aware force dynamics and trajectory prediction, alongside VP-Bench, a rigorously curated benchmark assessing instruction faithfulness, spatial precision, visual realism, and content consistency. Extensive experiments demonstrate that FlowInOne achieves state-of-the-art performance across all unified generation tasks, surpassing both open-source models and competitive commercial systems, establishing a new foundation for fully vision-centric generative modeling where perception and creation coexist within a single continuous visual space.