FlowScene: Стилистически согласованная генерация интерьеров с помощью мультимодального графа и выпрямленного потока
FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow
March 20, 2026
Авторы: Zhifei Yang, Guangyao Zhai, Keyang Lu, YuYang Yin, Chao Zhang, Zhen Xiao, Jieyi Long, Nassir Navab, Yikai Wang
cs.AI
Аннотация
Генерация сцен имеет широкое промышленное применение, требуя как высокой реалистичности, так и точного контроля над геометрией и внешним видом. Методы, основанные на языковом поиске, создают правдоподобные сцены из обширной базы данных объектов, но игнорируют объектно-ориентированный контроль и часто не обеспечивают согласованность стиля на уровне сцены. Графовые подходы обеспечивают более высокую управляемость объектами и информируют о целостной согласованности за счет явного моделирования отношений, однако существующие методы не позволяют получать текстурированные результаты высокой точности, что ограничивает их практическую полезность. Мы представляем FlowScene — трехкомпонентную генеративную модель сцен, управляемую мультимодальными графами, которая совместно генерирует планировки сцен, формы объектов и их текстуры. В ее основе лежит тесно связанная модель выпрямленного потока, которая обменивается информацией об объектах в процессе генерации, обеспечивая совместное рассуждение на графе. Это позволяет осуществлять детальный контроль форм, текстур и отношений объектов, одновременно обеспечивая согласованность стиля на уровне сцены как в структуре, так и во внешнем виде. Многочисленные эксперименты показывают, что FlowScene превосходит базовые методы, управляемые как языком, так и графами, по реалистичности генерации, согласованности стиля и соответствию предпочтениям человека.
English
Scene generation has extensive industrial applications, demanding both high realism and precise control over geometry and appearance. Language-driven retrieval methods compose plausible scenes from a large object database, but overlook object-level control and often fail to enforce scene-level style coherence. Graph-based formulations offer higher controllability over objects and inform holistic consistency by explicitly modeling relations, yet existing methods struggle to produce high-fidelity textured results, thereby limiting their practical utility. We present FlowScene, a tri-branch scene generative model conditioned on multimodal graphs that collaboratively generates scene layouts, object shapes, and object textures. At its core lies a tight-coupled rectified flow model that exchanges object information during generation, enabling collaborative reasoning across the graph. This enables fine-grained control of objects' shapes, textures, and relations while enforcing scene-level style coherence across structure and appearance. Extensive experiments show that FlowScene outperforms both language-conditioned and graph-conditioned baselines in terms of generation realism, style consistency, and alignment with human preferences.