FlowScene: Stilkonsistente Innenraumgenerierung mit multimodalem Graph Rectified Flow
FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow
March 20, 2026
Autoren: Zhifei Yang, Guangyao Zhai, Keyang Lu, YuYang Yin, Chao Zhang, Zhen Xiao, Jieyi Long, Nassir Navab, Yikai Wang
cs.AI
Zusammenfassung
Szenengenerierung hat umfangreiche industrielle Anwendungen und erfordert sowohl hohen Realismus als auch präzise Kontrolle über Geometrie und Erscheinungsbild. Sprachgesteuerte Retrieval-Methoden setzen plausible Szenen aus großen Objektdatenbanken zusammen, vernachlässigen jedoch die Objektebene-Kontrolle und scheitern oft an der Durchsetzung stilistischer Kohärenz auf Szenenebene. Graphbasierte Formulierungen bieten höhere Steuerbarkeit über Objekte und gewährleisten holistische Konsistenz durch explizite Modellierung von Relationen, doch bestehende Methoden erzeugen kaum hochwertige texturierte Ergebnisse, was ihre praktische Nutzbarkeit einschränkt. Wir präsentieren FlowScene, ein tri-modulares Szenengenerierungsmodell, das auf multimodalen Graphen konditioniert ist und gemeinsam Szenenlayouts, Objektgeometrien und Objekttexturen generiert. Kernstück ist ein eng gekoppeltes rectified flow-Modell, das Objektinformationen während der Generierung austauscht und damit kollaborative Reasoning-Prozesse über den Graphen hinweg ermöglicht. Dies erlaubt feingranulare Kontrolle von Objektformen, -texturen und -relationen bei gleichzeitiger Wahrung stilistischer Kohärenz auf Szenenebene in Struktur und Erscheinungsbild. Umfangreiche Experimente zeigen, dass FlowScene sowohl sprach- als auch graphkonditionierte Baseline-Methoden hinsichtlich Generierungsrealismus, Stilkonsistenz und Übereinstimmung mit menschlichen Präferenzen übertrifft.
English
Scene generation has extensive industrial applications, demanding both high realism and precise control over geometry and appearance. Language-driven retrieval methods compose plausible scenes from a large object database, but overlook object-level control and often fail to enforce scene-level style coherence. Graph-based formulations offer higher controllability over objects and inform holistic consistency by explicitly modeling relations, yet existing methods struggle to produce high-fidelity textured results, thereby limiting their practical utility. We present FlowScene, a tri-branch scene generative model conditioned on multimodal graphs that collaboratively generates scene layouts, object shapes, and object textures. At its core lies a tight-coupled rectified flow model that exchanges object information during generation, enabling collaborative reasoning across the graph. This enables fine-grained control of objects' shapes, textures, and relations while enforcing scene-level style coherence across structure and appearance. Extensive experiments show that FlowScene outperforms both language-conditioned and graph-conditioned baselines in terms of generation realism, style consistency, and alignment with human preferences.