Function2Scene: построение 3D-сцены интерьера на основе функциональных спецификаций
Function2Scene: 3D Indoor Scene Layout from Functional Specifications
May 29, 2026
Авторы: Ruiqi Wang, Qimin Chen, Daniel Ritchie, Angel X. Chang, Manolis Savva, Kai Wang, Hao Zhang
cs.AI
Аннотация
Большинство методов синтеза трёхмерных сцен в помещениях, основанных на текстовых описаниях, генерируют комнаты по объектно-ориентированным запросам, отвечая на вопрос, какую мебель следует разместить, а не как используется пространство. Однако в реальном дизайне интерьера планировка оценивается по тому, насколько хорошо она поддерживает её обитателей, например, их деятельность и физические потребности. Мы представляем Function2Scene — фреймворк для генерации трёхмерных планировок помещений на основе функциональных спецификаций, то есть текстовых дизайн-брифов на естественном языке, описывающих, кто будет использовать комнату и что им необходимо в ней делать. Получив такую спецификацию, наша система анализирует портреты обитателей и их действия, выводит индивидуальный набор функциональных ограничений проектирования из таксономии, включающей 17 критериев, охватывающих пространственные, эргономические, деятельностные и экологические аспекты, и использует эти ограничения для управления генерацией планировки. Вместо того чтобы полагаться на большую языковую модель (LLM) для прямого создания финальной сцены, Function2Scene выполняет итеративную оценку и уточнение через цикл проверки и исправления с использованием инструментов, сочетая геометрические измерения, контекстуальное рассуждение на основе LLM и визуальную оценку на основе VLM (модели визуально-языкового понимания). Эксперименты на 30 профессионально написанных примерах дизайна интерьеров показывают, что Function2Scene создаёт планировки, лучше удовлетворяющие функциональным требованиям, чем недавние базовые методы синтеза сцен на основе LLM, причём наши результаты предпочитаются в 94,3% попарных сравнений. Наша работа переосмысляет текстово-ориентированный синтез трёхмерных сцен: от размещения правдоподобных объектов к проектированию пространств, поддерживающих человеческое использование.
English
Most text-driven 3D indoor scene synthesis methods generate rooms from object-centric prompts, asking what furniture should be placed rather than how the space is used. Yet in real interior design, a layout is judged by how well it supports its occupants, e.g., their activities and physical needs. We introduce Function2Scene, a framework for generating 3D indoor layouts from functional specifications, i.e., natural-language design briefs describing who will use a room and what they need to do there. Given such a specification, our system parses occupant personas and activities, derives a customized set of functional design constraints from a taxonomy of 17 criteria spanning spatial, ergonomic, activity, and environmental considerations, and uses these constraints to guide layout generation. Rather than relying on an LLM to directly produce a final scene, Function2Scene performs iterative evaluation and refinement through a tool-augmented check-and-repair loop, combining geometric measurements, LLM-based contextual reasoning, and VLM-based visual assessment. Experiments on 30 professionally written interior-design cases show that Function2Scene produces layouts that better satisfy functional requirements than recent LLM-based scene synthesis baselines, with our results preferred in 94.3% of pairwise comparisons. Our work reframes text-driven indoor scene synthesis from placing plausible objects to designing spaces that support human use.