Code-as-Room: Generieren von 3D-Räumen aus Draufsicht-Bildern mittels agentischer Codesynthese

Zusammenfassung

Die Gestaltung realistischer und funktionaler 3D-Innenräume ist für ein breites Spektrum von Anwendungen unerlässlich, darunter Innenarchitektur, virtuelle Realität, Spiele und verkörperte KI. Während neuere Ansätze auf Basis multimodaler großer Sprachmodelle (MLLM) großes Potenzial für die Synthese von 3D-Räumen aus Textbeschreibungen oder Referenzbildern gezeigt haben, haben textbasierte Methoden Schwierigkeiten, präzise räumliche Informationen zu erfassen, und bestehende bildgesteuerte Agenten leiden unter Instabilität und Endlosschleifen, wenn sie mit der ganzheitlichen Raumerzeugung aus Draufsichtbildern beauftragt werden. Um diese Einschränkungen zu adressieren, schlagen wir Code-as-Room vor, ein MLLM-basiertes Agenten-Framework, das mit einem strukturierten Ausführungsrahmen (Execution Harness) ausgestattet ist und 3D-Räume mittels Blender-Code darstellt. Bei einem Draufsichtbild des Raumes analysiert das Framework das Referenzbild, um Szenenelemente und deren räumliche Beziehungen zu extrahieren, und synthetisiert in einer prinzipiellen, mehrstufigen Pipeline ausführbaren Blender-Code für Geometrie, Materialien und Beleuchtung. Ein stufenübergreifendes Speichermodul wird während des gesamten Prozesses aufrechterhalten, um das bei bestehenden agentenbasierten Frameworks auftretende Kontextvergessen zu mildern. Darüber hinaus führen wir einen dedizierten Benchmark für codebasierte 3D-Raumsynthese ein, der verschiedene Bewertungsprotokolle umfasst. Anhand unseres Benchmarks werden umfassende Vergleiche mit bestehenden agentenbasierten Methoden durchgeführt, um die Wirksamkeit des vorgeschlagenen Ausführungsrahmens zu validieren.

English

Designing realistic and functional 3D indoor rooms is essential for a wide range of applications, including interior design, virtual reality, gaming, and embodied AI. While recent MLLM-based approaches have shown great potential for 3D room synthesis from textual descriptions or reference images, text-based methods struggle to capture precise spatial information, and existing image-conditioned agents suffer from instability and infinite looping when tasked with holistic room generation from top-down views. To address these limitations, we propose Code-as-Room, an MLLM-based agentic framework equipped with a structured execution harness, which represents 3D rooms with Blender codes. Given a top-down room image, the framework parses the reference image to extract scene elements and their spatial relationships, and synthesizes executable Blender code for geometry, materials, and lighting in a principled, multi-stage pipeline. A cross-stage memory module is maintained throughout to mitigate context forgetting inherent to existing agent-based frameworks. We further introduce a dedicated benchmark for code-based 3D room synthesis, encompassing various evaluation protocols. Based on our benchmark, comprehensive comparisons against existing agent-based methods are conducted to validate the effectiveness of our proposed execution harness.