Code-as-Room: 3D-vertrekken genereren uit top-down-aanzichten via agentische codesynthese

Samenvatting

Het ontwerpen van realistische en functionele 3D-binnenruimtes is essentieel voor een breed scala aan toepassingen, waaronder interieurontwerp, virtual reality, gaming en belichaamde AI. Hoewel recente op MLLM gebaseerde benaderingen veel potentieel hebben getoond voor 3D-kamersynthese op basis van tekstuele beschrijvingen of referentieafbeeldingen, schieten tekstgebaseerde methoden tekort in het vastleggen van precieze ruimtelijke informatie, en bestaande beeldgestuurde agenten lijden onder instabiliteit en oneindige lussen wanneer ze worden belast met holistische kamergeneratie vanuit bovenaanzichten. Om deze beperkingen aan te pakken, stellen wij Code-as-Room voor, een op MLLM gebaseerd agentisch raamwerk dat is uitgerust met een gestructureerd uitvoeringskader en 3D-ruimtes voorstelt met Blender-codes. Gegeven een bovenaanzicht van een kamer, ontleedt het raamwerk de referentieafbeelding om scène-elementen en hun ruimtelijke relaties te extraheren, en synthetiseert het uitvoerbare Blender-code voor geometrie, materialen en belichting in een principiële, meertrapspijplijn. Gedurende het proces wordt een kruisfasen-geheugenmodule onderhouden om contextvergeten, inherent aan bestaande agentgebaseerde raamwerken, te beperken. Verder introduceren wij een speciale benchmark voor codegebaseerde 3D-kamersynthese, die verschillende evaluatieprotocollen omvat. Op basis van onze benchmark worden uitgebreide vergelijkingen met bestaande agentgebaseerde methoden uitgevoerd om de effectiviteit van ons voorgestelde uitvoeringskader te valideren.

English

Designing realistic and functional 3D indoor rooms is essential for a wide range of applications, including interior design, virtual reality, gaming, and embodied AI. While recent MLLM-based approaches have shown great potential for 3D room synthesis from textual descriptions or reference images, text-based methods struggle to capture precise spatial information, and existing image-conditioned agents suffer from instability and infinite looping when tasked with holistic room generation from top-down views. To address these limitations, we propose Code-as-Room, an MLLM-based agentic framework equipped with a structured execution harness, which represents 3D rooms with Blender codes. Given a top-down room image, the framework parses the reference image to extract scene elements and their spatial relationships, and synthesizes executable Blender code for geometry, materials, and lighting in a principled, multi-stage pipeline. A cross-stage memory module is maintained throughout to mitigate context forgetting inherent to existing agent-based frameworks. We further introduce a dedicated benchmark for code-based 3D room synthesis, encompassing various evaluation protocols. Based on our benchmark, comprehensive comparisons against existing agent-based methods are conducted to validate the effectiveness of our proposed execution harness.