Function2Scene: Layout de Cenas Internas 3D a partir de Especificações Funcionais
Function2Scene: 3D Indoor Scene Layout from Functional Specifications
May 29, 2026
Autores: Ruiqi Wang, Qimin Chen, Daniel Ritchie, Angel X. Chang, Manolis Savva, Kai Wang, Hao Zhang
cs.AI
Resumo
A maioria dos métodos de síntese de cenas internas 3D orientados por texto gera ambientes a partir de prompts centrados em objetos, perguntando quais móveis devem ser colocados, em vez de como o espaço é usado. No entanto, no design de interiores real, um layout é julgado por quão bem ele atende seus ocupantes, por exemplo, suas atividades e necessidades físicas. Apresentamos o Function2Scene, uma estrutura para gerar layouts internos 3D a partir de especificações funcionais, ou seja, briefings de design em linguagem natural que descrevem quem usará um ambiente e o que precisam fazer ali. Dada tal especificação, nosso sistema analisa personas de ocupantes e atividades, deriva um conjunto personalizado de restrições de design funcional a partir de uma taxonomia de 17 critérios que abrangem considerações espaciais, ergonômicas, de atividade e ambientais, e utiliza essas restrições para orientar a geração do layout. Em vez de confiar em um LLM para produzir diretamente uma cena final, o Function2Scene realiza avaliação e refinamento iterativos por meio de um loop de verificação e reparo aumentado por ferramentas, combinando medições geométricas, raciocínio contextual baseado em LLM e avaliação visual baseada em VLM. Experimentos em 30 casos de design de interiores escritos profissionalmente mostram que o Function2Scene produz layouts que satisfazem melhor os requisitos funcionais do que as bases recentes de síntese de cenas baseadas em LLM, com nossos resultados preferidos em 94,3% das comparações pareadas. Nosso trabalho reenquadra a síntese de cenas internas orientada por texto, passando da colocação de objetos plausíveis para o design de espaços que suportam o uso humano.
English
Most text-driven 3D indoor scene synthesis methods generate rooms from object-centric prompts, asking what furniture should be placed rather than how the space is used. Yet in real interior design, a layout is judged by how well it supports its occupants, e.g., their activities and physical needs. We introduce Function2Scene, a framework for generating 3D indoor layouts from functional specifications, i.e., natural-language design briefs describing who will use a room and what they need to do there. Given such a specification, our system parses occupant personas and activities, derives a customized set of functional design constraints from a taxonomy of 17 criteria spanning spatial, ergonomic, activity, and environmental considerations, and uses these constraints to guide layout generation. Rather than relying on an LLM to directly produce a final scene, Function2Scene performs iterative evaluation and refinement through a tool-augmented check-and-repair loop, combining geometric measurements, LLM-based contextual reasoning, and VLM-based visual assessment. Experiments on 30 professionally written interior-design cases show that Function2Scene produces layouts that better satisfy functional requirements than recent LLM-based scene synthesis baselines, with our results preferred in 94.3% of pairwise comparisons. Our work reframes text-driven indoor scene synthesis from placing plausible objects to designing spaces that support human use.