FlowScene: Stijlconsistente Generatie van Binnenruimtes met Multimodale Grafiek Gerechtificeerde Flow
FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow
March 20, 2026
Auteurs: Zhifei Yang, Guangyao Zhai, Keyang Lu, YuYang Yin, Chao Zhang, Zhen Xiao, Jieyi Long, Nassir Navab, Yikai Wang
cs.AI
Samenvatting
Scènegeneratie kent uitgebreide industriële toepassingen, waarbij zowel hoge realisme als precieze controle over geometrie en uiterlijk vereist zijn. Taalgestuurde retrievalmethoden componeren plausibele scènes uit een grote objectendatabase, maar negeren objectniveau-controle en slagen er vaak niet in stilistische coherentie op scèneniveau af te dwingen. Op grafen gebaseerde formuleringen bieden hogere beheersbaarheid over objecten en waarborgen holistische consistentie door relaties expliciet te modelleren, maar bestaande methoden slagen er niet in hoogwaardige getextureerde resultaten te produceren, wat hun praktische bruikbaarheid beperkt. Wij presenteren FlowScene, een driedelig scènegeneratief model, geconditioneerd op multimodale grafen, dat gezamenlijk scène-indelingen, objectvormen en objecttexturen genereert. De kern bestaat uit een sterk gekoppeld gerectificeerd stromingsmodel dat objectinformatie uitwisselt tijdens de generatie, waardoor gezamenlijke redenering over de graaf heen mogelijk wordt. Dit maakt fijnmazige controle van objectvormen, texturen en relaties mogelijk, terwijl tegelijkertijd stilistische coherentie op scèneniveau wordt afgedwongen voor zowel structuur als uiterlijk. Uitgebreide experimenten tonen aan dat FlowScene zowel taal- als grafgeconditioneerde baseline-methoden overtreft op het gebied van generatierealisme, stijlconsistentie en afstemming met menselijke voorkeuren.
English
Scene generation has extensive industrial applications, demanding both high realism and precise control over geometry and appearance. Language-driven retrieval methods compose plausible scenes from a large object database, but overlook object-level control and often fail to enforce scene-level style coherence. Graph-based formulations offer higher controllability over objects and inform holistic consistency by explicitly modeling relations, yet existing methods struggle to produce high-fidelity textured results, thereby limiting their practical utility. We present FlowScene, a tri-branch scene generative model conditioned on multimodal graphs that collaboratively generates scene layouts, object shapes, and object textures. At its core lies a tight-coupled rectified flow model that exchanges object information during generation, enabling collaborative reasoning across the graph. This enables fine-grained control of objects' shapes, textures, and relations while enforcing scene-level style coherence across structure and appearance. Extensive experiments show that FlowScene outperforms both language-conditioned and graph-conditioned baselines in terms of generation realism, style consistency, and alignment with human preferences.