ChatPaper.aiChatPaper

SceneWeaver: Универсальный синтез 3D-сцен с расширяемым и саморефлексивным агентом

SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

September 24, 2025
Авторы: Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang
cs.AI

Аннотация

Синтез интерьерных сцен становится все более важным с развитием воплощенного ИИ (Embodied AI), который требует 3D-сред, которые не только визуально реалистичны, но и физически правдоподобны, а также функционально разнообразны. Хотя современные подходы значительно улучшили визуальную точность, они часто ограничиваются фиксированными категориями сцен, недостаточно детализированы на уровне объектов, не обеспечивают физической согласованности и с трудом соответствуют сложным пользовательским инструкциям. В данной работе мы представляем SceneWeaver — рефлексивную агентскую платформу, которая объединяет различные парадигмы синтеза сцен через инструментальное итеративное уточнение. В основе SceneWeaver лежит планировщик на основе языковой модели, который выбирает из набора расширяемых инструментов генерации сцен, включая генеративные модели на основе данных, а также методы, основанные на визуальных данных и языковых моделях (LLM), руководствуясь самооценкой физической правдоподобности, визуального реализма и семантического соответствия пользовательскому вводу. Этот замкнутый цикл "рассуждай-действуй-рефлексируй" позволяет агенту выявлять семантические несоответствия, вызывать целевые инструменты и обновлять среду в ходе последовательных итераций. Эксперименты на различных типах комнат, включая открытые словарные категории, демонстрируют, что SceneWeaver не только превосходит предыдущие методы по физическим, визуальным и семантическим метрикам, но и эффективно обобщается на сложные сцены с разнообразными инструкциями, что делает шаг к созданию универсальных 3D-сред. Сайт проекта: https://scene-weaver.github.io/.
English
Indoor scene synthesis has become increasingly important with the rise of Embodied AI, which requires 3D environments that are not only visually realistic but also physically plausible and functionally diverse. While recent approaches have advanced visual fidelity, they often remain constrained to fixed scene categories, lack sufficient object-level detail and physical consistency, and struggle to align with complex user instructions. In this work, we present SceneWeaver, a reflective agentic framework that unifies diverse scene synthesis paradigms through tool-based iterative refinement. At its core, SceneWeaver employs a language model-based planner to select from a suite of extensible scene generation tools, ranging from data-driven generative models to visual- and LLM-based methods, guided by self-evaluation of physical plausibility, visual realism, and semantic alignment with user input. This closed-loop reason-act-reflect design enables the agent to identify semantic inconsistencies, invoke targeted tools, and update the environment over successive iterations. Extensive experiments on both common and open-vocabulary room types demonstrate that SceneWeaver not only outperforms prior methods on physical, visual, and semantic metrics, but also generalizes effectively to complex scenes with diverse instructions, marking a step toward general-purpose 3D environment generation. Project website: https://scene-weaver.github.io/.
PDF82September 26, 2025