FlowScene: Стилистически согласованная генерация интерьеров с помощью мультимодального графа и выпрямленного потока

Аннотация

Генерация сцен имеет широкое промышленное применение, требуя как высокой реалистичности, так и точного контроля над геометрией и внешним видом. Методы, основанные на языковом поиске, создают правдоподобные сцены из обширной базы данных объектов, но игнорируют объектно-ориентированный контроль и часто не обеспечивают согласованность стиля на уровне сцены. Графовые подходы обеспечивают более высокую управляемость объектами и информируют о целостной согласованности за счет явного моделирования отношений, однако существующие методы не позволяют получать текстурированные результаты высокой точности, что ограничивает их практическую полезность. Мы представляем FlowScene — трехкомпонентную генеративную модель сцен, управляемую мультимодальными графами, которая совместно генерирует планировки сцен, формы объектов и их текстуры. В ее основе лежит тесно связанная модель выпрямленного потока, которая обменивается информацией об объектах в процессе генерации, обеспечивая совместное рассуждение на графе. Это позволяет осуществлять детальный контроль форм, текстур и отношений объектов, одновременно обеспечивая согласованность стиля на уровне сцены как в структуре, так и во внешнем виде. Многочисленные эксперименты показывают, что FlowScene превосходит базовые методы, управляемые как языком, так и графами, по реалистичности генерации, согласованности стиля и соответствию предпочтениям человека.

English

Scene generation has extensive industrial applications, demanding both high realism and precise control over geometry and appearance. Language-driven retrieval methods compose plausible scenes from a large object database, but overlook object-level control and often fail to enforce scene-level style coherence. Graph-based formulations offer higher controllability over objects and inform holistic consistency by explicitly modeling relations, yet existing methods struggle to produce high-fidelity textured results, thereby limiting their practical utility. We present FlowScene, a tri-branch scene generative model conditioned on multimodal graphs that collaboratively generates scene layouts, object shapes, and object textures. At its core lies a tight-coupled rectified flow model that exchanges object information during generation, enabling collaborative reasoning across the graph. This enables fine-grained control of objects' shapes, textures, and relations while enforcing scene-level style coherence across structure and appearance. Extensive experiments show that FlowScene outperforms both language-conditioned and graph-conditioned baselines in terms of generation realism, style consistency, and alignment with human preferences.

FlowScene: Стилистически согласованная генерация интерьеров с помощью мультимодального графа и выпрямленного потока

FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

Аннотация

Support