SceneWeaver: Síntese de Cenas 3D Tudo-em-Um com um Agente Extensível e Autorreflexivo
SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent
September 24, 2025
Autores: Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang
cs.AI
Resumo
A síntese de cenas internas tornou-se cada vez mais importante com o surgimento da IA Embarcada, que requer ambientes 3D que não apenas sejam visualmente realistas, mas também fisicamente plausíveis e funcionalmente diversos. Embora abordagens recentes tenham avançado a fidelidade visual, elas frequentemente permanecem limitadas a categorias de cenas fixas, carecem de detalhes suficientes em nível de objeto e consistência física, e lutam para se alinhar com instruções complexas do usuário. Neste trabalho, apresentamos o SceneWeaver, uma estrutura agencial reflexiva que unifica diversos paradigmas de síntese de cenas por meio de refinamento iterativo baseado em ferramentas. No cerne do SceneWeaver, um planejador baseado em modelo de linguagem seleciona entre um conjunto de ferramentas extensíveis de geração de cenas, que variam desde modelos generativos baseados em dados até métodos baseados em visão e LLM, guiados por autoavaliação de plausibilidade física, realismo visual e alinhamento semântico com a entrada do usuário. Este design de raciocínio-ação-reflexão em loop fechado permite que o agente identifique inconsistências semânticas, invoque ferramentas específicas e atualize o ambiente ao longo de iterações sucessivas. Experimentos extensivos em tipos de cômodos comuns e de vocabulário aberto demonstram que o SceneWeaver não apenas supera métodos anteriores em métricas físicas, visuais e semânticas, mas também generaliza efetivamente para cenas complexas com instruções diversas, marcando um passo em direção à geração de ambientes 3D de propósito geral. Site do projeto: https://scene-weaver.github.io/.
English
Indoor scene synthesis has become increasingly important with the rise of
Embodied AI, which requires 3D environments that are not only visually
realistic but also physically plausible and functionally diverse. While recent
approaches have advanced visual fidelity, they often remain constrained to
fixed scene categories, lack sufficient object-level detail and physical
consistency, and struggle to align with complex user instructions. In this
work, we present SceneWeaver, a reflective agentic framework that unifies
diverse scene synthesis paradigms through tool-based iterative refinement. At
its core, SceneWeaver employs a language model-based planner to select from a
suite of extensible scene generation tools, ranging from data-driven generative
models to visual- and LLM-based methods, guided by self-evaluation of physical
plausibility, visual realism, and semantic alignment with user input. This
closed-loop reason-act-reflect design enables the agent to identify semantic
inconsistencies, invoke targeted tools, and update the environment over
successive iterations. Extensive experiments on both common and open-vocabulary
room types demonstrate that SceneWeaver not only outperforms prior methods on
physical, visual, and semantic metrics, but also generalizes effectively to
complex scenes with diverse instructions, marking a step toward general-purpose
3D environment generation. Project website: https://scene-weaver.github.io/.