Code-as-Room : Génération de pièces 3D à partir d'images en vue de dessus par synthèse de code agentique

Résumé

Concevoir des pièces 3D intérieures réalistes et fonctionnelles est essentiel pour un large éventail d'applications, notamment le design d'intérieur, la réalité virtuelle, les jeux vidéo et l'IA incarnée. Alors que les approches récentes basées sur les MLLM (modèles de langage multimodaux de grande taille) ont montré un fort potentiel pour la synthèse de pièces 3D à partir de descriptions textuelles ou d'images de référence, les méthodes textuelles peinent à capturer des informations spatiales précises, et les agents existants conditionnés par une image souffrent d'instabilité et de boucles infinies lorsqu'ils sont chargés de générer une pièce entière à partir de vues de dessus. Pour remédier à ces limitations, nous proposons Code-as-Room, un cadre agentique basé sur MLLM équipé d'un harnais d'exécution structuré, qui représente les pièces 3D à l'aide de codes Blender. À partir d'une image de pièce vue de dessus, le cadre analyse l'image de référence pour extraire les éléments de la scène et leurs relations spatiales, et synthétise un code Blender exécutable pour la géométrie, les matériaux et l'éclairage dans un pipeline multi-étapes structuré. Un module de mémoire inter-étapes est maintenu tout au long du processus pour atténuer l'oubli contextuel inhérent aux cadres agentiques existants. Nous introduisons également un benchmark dédié à la synthèse de pièces 3D basée sur du code, englobant divers protocoles d'évaluation. À l'aide de ce benchmark, des comparaisons exhaustives avec les méthodes agentiques existantes sont menées pour valider l'efficacité du harnais d'exécution proposé.

English

Designing realistic and functional 3D indoor rooms is essential for a wide range of applications, including interior design, virtual reality, gaming, and embodied AI. While recent MLLM-based approaches have shown great potential for 3D room synthesis from textual descriptions or reference images, text-based methods struggle to capture precise spatial information, and existing image-conditioned agents suffer from instability and infinite looping when tasked with holistic room generation from top-down views. To address these limitations, we propose Code-as-Room, an MLLM-based agentic framework equipped with a structured execution harness, which represents 3D rooms with Blender codes. Given a top-down room image, the framework parses the reference image to extract scene elements and their spatial relationships, and synthesizes executable Blender code for geometry, materials, and lighting in a principled, multi-stage pipeline. A cross-stage memory module is maintained throughout to mitigate context forgetting inherent to existing agent-based frameworks. We further introduce a dedicated benchmark for code-based 3D room synthesis, encompassing various evaluation protocols. Based on our benchmark, comprehensive comparisons against existing agent-based methods are conducted to validate the effectiveness of our proposed execution harness.