FlowScene: マルチモーダルグラフ整流フローによるスタイル一貫性のある室内シーン生成
FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow
March 20, 2026
著者: Zhifei Yang, Guangyao Zhai, Keyang Lu, YuYang Yin, Chao Zhang, Zhen Xiao, Jieyi Long, Nassir Navab, Yikai Wang
cs.AI
要旨
シーン生成は産業応用が広く、高いリアリズムと幾何学構造・外観の精密な制御が求められる。言語駆動型検索手法は大規模オブジェクトデータベースから妥当なシーンを構築するが、オブジェクトレベルの制御を軽視し、シーンレベルのスタイル一貫性を確保できないことが多い。グラフベースの定式化はオブジェクトに対する制御性が高く、関係性を明示的にモデル化することで全体的な一貫性を担保するが、既存手法は高精細なテクスチャ結果の生成に苦戦し、実用性が制限されている。本研究では、マルチモーダルグラフを条件とする三枝構造のシーン生成モデルFlowSceneを提案する。これはシーンレイアウト、オブジェクト形状、オブジェクトテクスチャを協調的に生成する。中核には、生成過程でオブジェクト情報を交換する緊密結合型修正フローモデルを配置し、グラフ横断的な協調的推論を実現する。これにより、オブジェクトの形状・テクスチャ・関係性の細粒度制御と、構造と外観にわたるシーンレベルのスタイル一貫性の両立が可能となる。大規模実験により、FlowSceneが生成のリアリズム、スタイル一貫性、人間の選好との整合性において、言語条件付きおよびグラフ条件付きベースラインを凌駕することを示す。
English
Scene generation has extensive industrial applications, demanding both high realism and precise control over geometry and appearance. Language-driven retrieval methods compose plausible scenes from a large object database, but overlook object-level control and often fail to enforce scene-level style coherence. Graph-based formulations offer higher controllability over objects and inform holistic consistency by explicitly modeling relations, yet existing methods struggle to produce high-fidelity textured results, thereby limiting their practical utility. We present FlowScene, a tri-branch scene generative model conditioned on multimodal graphs that collaboratively generates scene layouts, object shapes, and object textures. At its core lies a tight-coupled rectified flow model that exchanges object information during generation, enabling collaborative reasoning across the graph. This enables fine-grained control of objects' shapes, textures, and relations while enforcing scene-level style coherence across structure and appearance. Extensive experiments show that FlowScene outperforms both language-conditioned and graph-conditioned baselines in terms of generation realism, style consistency, and alignment with human preferences.