FlowScene: Generazione di Scene Interne con Stile Coerente tramite Flusso Rettificato Grafico Multimodale

Abstract

La generazione di scene ha ampie applicazioni industriali, richiedendo sia un alto realismo che un controllo preciso su geometria e aspetto. I metodi di retrieval basati sul linguaggio compongono scene plausibili da un ampio database di oggetti, ma trascurano il controllo a livello di oggetto e spesso non riescono a garantire la coerenza stilistica a livello di scena. Le formulazioni basate su grafi offrono una maggiore controllabilità sugli oggetti e garantiscono una coerenza olistica modellando esplicitamente le relazioni, tuttavia i metodi esistenti faticano a produrre risultati testurizzati ad alta fedeltà, limitandone così l'utilità pratica. Presentiamo FlowScene, un modello generativo di scene a tre rami condizionato da grafi multimodali che genera collaborativamente layout di scene, forme degli oggetti e texture degli oggetti. Il suo nucleo è costituito da un modello di flusso rettificato strettamente accoppiato che scambia informazioni sugli oggetti durante la generazione, abilitando un ragionamento collaborativo attraverso il grafo. Ciò consente un controllo granulare delle forme, delle texture e delle relazioni degli oggetti, imponendo al contempo una coerenza stilistica a livello di scena attraverso struttura e aspetto. Esperimenti estensivi mostrano che FlowScene supera le baseline condizionate sia linguisticamente che tramite grafo in termini di realismo della generazione, coerenza stilistica e allineamento con le preferenze umane.

English

Scene generation has extensive industrial applications, demanding both high realism and precise control over geometry and appearance. Language-driven retrieval methods compose plausible scenes from a large object database, but overlook object-level control and often fail to enforce scene-level style coherence. Graph-based formulations offer higher controllability over objects and inform holistic consistency by explicitly modeling relations, yet existing methods struggle to produce high-fidelity textured results, thereby limiting their practical utility. We present FlowScene, a tri-branch scene generative model conditioned on multimodal graphs that collaboratively generates scene layouts, object shapes, and object textures. At its core lies a tight-coupled rectified flow model that exchanges object information during generation, enabling collaborative reasoning across the graph. This enables fine-grained control of objects' shapes, textures, and relations while enforcing scene-level style coherence across structure and appearance. Extensive experiments show that FlowScene outperforms both language-conditioned and graph-conditioned baselines in terms of generation realism, style consistency, and alignment with human preferences.

FlowScene: Generazione di Scene Interne con Stile Coerente tramite Flusso Rettificato Grafico Multimodale

FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

Abstract

Support