FlowScene: Generación de Escenas Interiores con Estilo Consistente mediante Flujo Rectificado Gráfico Multimodal

Resumen

La generación de escenas posee amplias aplicaciones industriales, exigiendo tanto un alto realismo como un control preciso sobre la geometría y la apariencia. Los métodos de recuperación basados en lenguaje componen escenas plausibles a partir de una gran base de datos de objetos, pero pasan por alto el control a nivel de objeto y a menudo no logran imponer una coherencia de estilo a nivel de escena. Las formulaciones basadas en grafos ofrecen una mayor controlabilidad sobre los objetos e informan sobre la coherencia holística mediante el modelado explícito de relaciones; sin embargo, los métodos existentes tienen dificultades para producir resultados texturizados de alta fidelidad, limitando así su utilidad práctica. Presentamos FlowScene, un modelo generativo de escenas de tres ramas condicionado por grafos multimodales que genera colaborativamente diseños de escena, formas de objetos y texturas de objetos. En su núcleo se encuentra un modelo de flujo rectificado estrechamente acoplado que intercambia información de los objetos durante la generación, permitiendo un razonamiento colaborativo a través del grafo. Esto posibilita un control de grano fino sobre las formas, texturas y relaciones de los objetos, al mismo tiempo que impone una coherencia de estilo a nivel de escena tanto en la estructura como en la apariencia. Experimentos exhaustivos demuestran que FlowScene supera a los métodos de referencia, tanto los condicionados por lenguaje como por grafos, en términos de realismo de la generación, coherencia de estilo y alineación con las preferencias humanas.

English

Scene generation has extensive industrial applications, demanding both high realism and precise control over geometry and appearance. Language-driven retrieval methods compose plausible scenes from a large object database, but overlook object-level control and often fail to enforce scene-level style coherence. Graph-based formulations offer higher controllability over objects and inform holistic consistency by explicitly modeling relations, yet existing methods struggle to produce high-fidelity textured results, thereby limiting their practical utility. We present FlowScene, a tri-branch scene generative model conditioned on multimodal graphs that collaboratively generates scene layouts, object shapes, and object textures. At its core lies a tight-coupled rectified flow model that exchanges object information during generation, enabling collaborative reasoning across the graph. This enables fine-grained control of objects' shapes, textures, and relations while enforcing scene-level style coherence across structure and appearance. Extensive experiments show that FlowScene outperforms both language-conditioned and graph-conditioned baselines in terms of generation realism, style consistency, and alignment with human preferences.

FlowScene: Generación de Escenas Interiores con Estilo Consistente mediante Flujo Rectificado Gráfico Multimodal

FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

Resumen

Support