Код-как-комната: Генерация 3D-комнат из изображений видов сверху с помощью агентного синтеза кода

Аннотация

Проектирование реалистичных и функциональных 3D-помещений необходимо для широкого спектра приложений, включая дизайн интерьеров, виртуальную реальность, игры и воплощённый ИИ. Хотя недавние подходы на основе MLLM продемонстрировали большой потенциал для синтеза 3D-комнат по текстовым описаниям или эталонным изображениям, текстовые методы испытывают трудности с захватом точной пространственной информации, а существующие агенты, обусловленные изображениями, страдают от нестабильности и бесконечных циклов при выполнении задачи целостной генерации комнаты по видам сверху. Чтобы устранить эти ограничения, мы предлагаем Code-as-Room — агентский фреймворк на основе MLLM, оснащённый структурированной исполнительной обвязкой, который представляет 3D-комнаты с помощью кода Blender. Учитывая изображение комнаты сверху, фреймворк анализирует эталонное изображение для извлечения элементов сцены и их пространственных отношений, а затем синтезирует исполняемый код Blender для геометрии, материалов и освещения в принципиальном многоэтапном конвейере. На протяжении всего процесса поддерживается межэтапный модуль памяти, чтобы смягчить забывание контекста, присущее существующим агентским фреймворкам. Мы также представляем специализированный бенчмарк для синтеза 3D-комнат на основе кода, охватывающий различные протоколы оценки. На основе нашего бенчмарка проводятся всесторонние сравнения с существующими агентскими методами для проверки эффективности предложенной нами исполнительной обвязки.

English

Designing realistic and functional 3D indoor rooms is essential for a wide range of applications, including interior design, virtual reality, gaming, and embodied AI. While recent MLLM-based approaches have shown great potential for 3D room synthesis from textual descriptions or reference images, text-based methods struggle to capture precise spatial information, and existing image-conditioned agents suffer from instability and infinite looping when tasked with holistic room generation from top-down views. To address these limitations, we propose Code-as-Room, an MLLM-based agentic framework equipped with a structured execution harness, which represents 3D rooms with Blender codes. Given a top-down room image, the framework parses the reference image to extract scene elements and their spatial relationships, and synthesizes executable Blender code for geometry, materials, and lighting in a principled, multi-stage pipeline. A cross-stage memory module is maintained throughout to mitigate context forgetting inherent to existing agent-based frameworks. We further introduce a dedicated benchmark for code-based 3D room synthesis, encompassing various evaluation protocols. Based on our benchmark, comprehensive comparisons against existing agent-based methods are conducted to validate the effectiveness of our proposed execution harness.