FlowScene: Geração de Cenas Internas com Consistência Estilística usando Fluxo Retificado Grafo Multimodal
FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow
March 20, 2026
Autores: Zhifei Yang, Guangyao Zhai, Keyang Lu, YuYang Yin, Chao Zhang, Zhen Xiao, Jieyi Long, Nassir Navab, Yikai Wang
cs.AI
Resumo
A geração de cenas possui amplas aplicações industriais, exigindo tanto alto realismo quanto controle preciso sobre geometria e aparência. Métodos de recuperação baseados em linguagem compõem cenas plausíveis a partir de um grande banco de dados de objetos, mas negligenciam o controle a nível de objeto e frequentemente falham em impor coerência de estilo a nível de cena. Formulações baseadas em grafos oferecem maior controlabilidade sobre os objetos e informam a consistência holística através da modelagem explícita de relações, entretanto, os métodos existentes lutam para produzir resultados texturizados de alta fidelidade, limitando assim sua utilidade prática. Apresentamos o FlowScene, um modelo gerativo de cenas com três ramos condicionado em grafos multimodais que gera colaborativamente layouts de cena, formas de objetos e texturas de objetos. Em seu núcleo reside um modelo de fluxo retificado fortemente acoplado que troca informações de objetos durante a geração, permitindo um raciocínio colaborativo através do grafo. Isso possibilita o controle refinado das formas, texturas e relações dos objetos, ao mesmo tempo que impõe coerência de estilo a nível de cena através da estrutura e aparência. Experimentos extensivos mostram que o FlowScene supera as linhas de base condicionadas por linguagem e por grafos em termos de realismo da geração, consistência de estilo e alinhamento com as preferências humanas.
English
Scene generation has extensive industrial applications, demanding both high realism and precise control over geometry and appearance. Language-driven retrieval methods compose plausible scenes from a large object database, but overlook object-level control and often fail to enforce scene-level style coherence. Graph-based formulations offer higher controllability over objects and inform holistic consistency by explicitly modeling relations, yet existing methods struggle to produce high-fidelity textured results, thereby limiting their practical utility. We present FlowScene, a tri-branch scene generative model conditioned on multimodal graphs that collaboratively generates scene layouts, object shapes, and object textures. At its core lies a tight-coupled rectified flow model that exchanges object information during generation, enabling collaborative reasoning across the graph. This enables fine-grained control of objects' shapes, textures, and relations while enforcing scene-level style coherence across structure and appearance. Extensive experiments show that FlowScene outperforms both language-conditioned and graph-conditioned baselines in terms of generation realism, style consistency, and alignment with human preferences.