FlowScene : Génération cohérente de style pour scènes intérieures avec flux rectifié multimodal par graphes

Résumé

La génération de scènes possède des applications industrielles étendues, exigeant à la fois un réalisme élevé et un contrôle précis de la géométrie et de l'apparence. Les méthodes de récupération pilotées par le langage composent des scènes plausibles à partir d'une vaste base de données d'objets, mais négligent le contrôle au niveau objet et échouent souvent à imposer une cohérence stylistique au niveau scène. Les formulations basées sur les graphes offrent une contrôlabilité accrue sur les objets et informent la cohérence holistique en modélisant explicitement les relations, mais les méthodes existantes peinent à produire des résultats texturés de haute fidélité, limitant ainsi leur utilité pratique. Nous présentons FlowScene, un modèle génératif de scènes à trois branches conditionné par des graphes multimodaux qui génère de manière collaborative les agencements de scène, les formes d'objets et les textures des objets. Son cœur repose sur un modèle de flux rectifié étroitement couplé qui échange des informations sur les objets pendant la génération, permettant un raisonnement collaboratif à travers le graphe. Cela permet un contrôle granulaire des formes, des textures et des relations des objets tout en imposant une cohérence stylistique au niveau scène à travers la structure et l'apparence. Des expériences approfondies montrent que FlowScene surpasse les lignes de base conditionnées par le langage et par graphe en termes de réalisme de la génération, de cohérence stylistique et d'alignement avec les préférences humaines.

English

Scene generation has extensive industrial applications, demanding both high realism and precise control over geometry and appearance. Language-driven retrieval methods compose plausible scenes from a large object database, but overlook object-level control and often fail to enforce scene-level style coherence. Graph-based formulations offer higher controllability over objects and inform holistic consistency by explicitly modeling relations, yet existing methods struggle to produce high-fidelity textured results, thereby limiting their practical utility. We present FlowScene, a tri-branch scene generative model conditioned on multimodal graphs that collaboratively generates scene layouts, object shapes, and object textures. At its core lies a tight-coupled rectified flow model that exchanges object information during generation, enabling collaborative reasoning across the graph. This enables fine-grained control of objects' shapes, textures, and relations while enforcing scene-level style coherence across structure and appearance. Extensive experiments show that FlowScene outperforms both language-conditioned and graph-conditioned baselines in terms of generation realism, style consistency, and alignment with human preferences.

FlowScene : Génération cohérente de style pour scènes intérieures avec flux rectifié multimodal par graphes

FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

Résumé

Support