Código como sala: Generación de salas 3D a partir de imágenes de vista superior mediante síntesis de código agéntico

Resumen

El diseño de habitaciones interiores 3D realistas y funcionales es fundamental para una amplia gama de aplicaciones, como el diseño de interiores, la realidad virtual, los videojuegos y la IA corpórea. Aunque los enfoques recientes basados en MLLM han mostrado un gran potencial para la síntesis de habitaciones 3D a partir de descripciones textuales o imágenes de referencia, los métodos basados en texto tienen dificultades para capturar información espacial precisa, y los agentes existentes condicionados por imágenes sufren de inestabilidad y bucles infinitos cuando se les asigna la generación holística de habitaciones desde vistas cenitales. Para abordar estas limitaciones, proponemos Code-as-Room, un marco de agente basado en MLLM equipado con un arnés de ejecución estructurado, que representa habitaciones 3D mediante códigos de Blender. Dada una imagen cenital de una habitación, el marco analiza la imagen de referencia para extraer los elementos de la escena y sus relaciones espaciales, y sintetiza código ejecutable de Blender para la geometría, los materiales y la iluminación en un proceso de múltiples etapas basado en principios. Se mantiene un módulo de memoria entre etapas a lo largo del proceso para mitigar el olvido de contexto inherente a los marcos basados en agentes existentes. Además, introducimos un punto de referencia específico para la síntesis de habitaciones 3D basada en código, que abarca diversos protocolos de evaluación. Con base en nuestro punto de referencia, se realizan comparaciones exhaustivas con métodos basados en agentes existentes para validar la efectividad del arnés de ejecución propuesto.

English

Designing realistic and functional 3D indoor rooms is essential for a wide range of applications, including interior design, virtual reality, gaming, and embodied AI. While recent MLLM-based approaches have shown great potential for 3D room synthesis from textual descriptions or reference images, text-based methods struggle to capture precise spatial information, and existing image-conditioned agents suffer from instability and infinite looping when tasked with holistic room generation from top-down views. To address these limitations, we propose Code-as-Room, an MLLM-based agentic framework equipped with a structured execution harness, which represents 3D rooms with Blender codes. Given a top-down room image, the framework parses the reference image to extract scene elements and their spatial relationships, and synthesizes executable Blender code for geometry, materials, and lighting in a principled, multi-stage pipeline. A cross-stage memory module is maintained throughout to mitigate context forgetting inherent to existing agent-based frameworks. We further introduce a dedicated benchmark for code-based 3D room synthesis, encompassing various evaluation protocols. Based on our benchmark, comprehensive comparisons against existing agent-based methods are conducted to validate the effectiveness of our proposed execution harness.