FlowScene: 다중 모드 그래프 정규화 흐름을 활용한 스타일 일관된 실내 장면 생성
FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow
March 20, 2026
저자: Zhifei Yang, Guangyao Zhai, Keyang Lu, YuYang Yin, Chao Zhang, Zhen Xiao, Jieyi Long, Nassir Navab, Yikai Wang
cs.AI
초록
장면 생성은 높은 사실감과 함께 기하학적 구조 및 외관에 대한 정밀한 제어를 요구하는 광범위한 산업적 적용 분야를 가지고 있습니다. 언어 기반 검색 방법은 대규모 객체 데이터베이스에서 그럴듯한 장면을 구성하지만, 객체 수준 제어를 간과하고 장면 수준 스타일 일관성을 종종 확보하지 못합니다. 그래프 기반 공식화는 관계를 명시적으로 모델링함으로써 객체에 대한 높은 제어성과 전체적 일관성을 제공하나, 기존 방법들은 고품질 텍스처 결과물을 생성하는 데 어려움을 겪어 실용성을 제한하고 있습니다. 본 연구에서는 다중 모드 그래프를 조건으로 하는 3-분기(tri-branch) 장면 생성 모델인 FlowScene을 제안합니다. 이 모델은 장면 레이아웃, 객체 형태, 객체 텍스처를 협력적으로 생성합니다. 그 핵심에는 생성 과정에서 객체 정보를 교환하는 긴밀하게 결합된 정규화 흐름(rectified flow) 모델이 자리하며, 이를 통해 그래프 전체에 걸친 협력적 추론이 가능해집니다. 이는 구조와 외관 전반에 걸쳐 장면 수준의 스타일 일관성을 확보하면서도 객체의 형태, 텍스처, 관계에 대한 세밀한 제어를 가능하게 합니다. 폭넓은 실험을 통해 FlowScene이 생성 사실감, 스타일 일관성, 인간 선호도 정렬 측면에서 언어 조건 기반 및 그래프 조건 기반 기준 모델들을 능가함을 입증했습니다.
English
Scene generation has extensive industrial applications, demanding both high realism and precise control over geometry and appearance. Language-driven retrieval methods compose plausible scenes from a large object database, but overlook object-level control and often fail to enforce scene-level style coherence. Graph-based formulations offer higher controllability over objects and inform holistic consistency by explicitly modeling relations, yet existing methods struggle to produce high-fidelity textured results, thereby limiting their practical utility. We present FlowScene, a tri-branch scene generative model conditioned on multimodal graphs that collaboratively generates scene layouts, object shapes, and object textures. At its core lies a tight-coupled rectified flow model that exchanges object information during generation, enabling collaborative reasoning across the graph. This enables fine-grained control of objects' shapes, textures, and relations while enforcing scene-level style coherence across structure and appearance. Extensive experiments show that FlowScene outperforms both language-conditioned and graph-conditioned baselines in terms of generation realism, style consistency, and alignment with human preferences.