Código-como-Sala: Gerando Salas 3D a partir de Imagens de Vista Superior via Síntese de Código por Agentes

Resumo

Projetar salas internas 3D realistas e funcionais é essencial para uma ampla gama de aplicações, incluindo design de interiores, realidade virtual, jogos e IA incorporada. Embora abordagens recentes baseadas em MLLM tenham demonstrado grande potencial para síntese de salas 3D a partir de descrições textuais ou imagens de referência, métodos baseados em texto têm dificuldade em capturar informações espaciais precisas, e agentes existentes condicionados a imagem sofrem com instabilidade e looping infinito quando encarregados da geração holística de salas a partir de vistas de cima para baixo. Para superar essas limitações, propomos o Code-as-Room, um framework de agente baseado em MLLM equipado com uma estrutura de execução organizada, que representa salas 3D com códigos Blender. Dada uma imagem de sala de cima para baixo, o framework analisa a imagem de referência para extrair elementos da cena e suas relações espaciais, e sintetiza código Blender executável para geometria, materiais e iluminação em um pipeline multietapas estruturado. Um módulo de memória entre estágios é mantido ao longo do processo para mitigar o esquecimento de contexto, inerente aos frameworks baseados em agentes existentes. Também introduzimos um benchmark específico para síntese de salas 3D baseada em código, englobando vários protocolos de avaliação. Com base nesse benchmark, são realizadas comparações abrangentes com métodos baseados em agentes existentes para validar a eficácia da estrutura de execução proposta.

English

Designing realistic and functional 3D indoor rooms is essential for a wide range of applications, including interior design, virtual reality, gaming, and embodied AI. While recent MLLM-based approaches have shown great potential for 3D room synthesis from textual descriptions or reference images, text-based methods struggle to capture precise spatial information, and existing image-conditioned agents suffer from instability and infinite looping when tasked with holistic room generation from top-down views. To address these limitations, we propose Code-as-Room, an MLLM-based agentic framework equipped with a structured execution harness, which represents 3D rooms with Blender codes. Given a top-down room image, the framework parses the reference image to extract scene elements and their spatial relationships, and synthesizes executable Blender code for geometry, materials, and lighting in a principled, multi-stage pipeline. A cross-stage memory module is maintained throughout to mitigate context forgetting inherent to existing agent-based frameworks. We further introduce a dedicated benchmark for code-based 3D room synthesis, encompassing various evaluation protocols. Based on our benchmark, comprehensive comparisons against existing agent-based methods are conducted to validate the effectiveness of our proposed execution harness.