SceneWeaver: Síntese de Cenas 3D Tudo-em-Um com um Agente Extensível e Autorreflexivo

Resumo

A síntese de cenas internas tornou-se cada vez mais importante com o surgimento da IA Embarcada, que requer ambientes 3D que não apenas sejam visualmente realistas, mas também fisicamente plausíveis e funcionalmente diversos. Embora abordagens recentes tenham avançado a fidelidade visual, elas frequentemente permanecem limitadas a categorias de cenas fixas, carecem de detalhes suficientes em nível de objeto e consistência física, e lutam para se alinhar com instruções complexas do usuário. Neste trabalho, apresentamos o SceneWeaver, uma estrutura agencial reflexiva que unifica diversos paradigmas de síntese de cenas por meio de refinamento iterativo baseado em ferramentas. No cerne do SceneWeaver, um planejador baseado em modelo de linguagem seleciona entre um conjunto de ferramentas extensíveis de geração de cenas, que variam desde modelos generativos baseados em dados até métodos baseados em visão e LLM, guiados por autoavaliação de plausibilidade física, realismo visual e alinhamento semântico com a entrada do usuário. Este design de raciocínio-ação-reflexão em loop fechado permite que o agente identifique inconsistências semânticas, invoque ferramentas específicas e atualize o ambiente ao longo de iterações sucessivas. Experimentos extensivos em tipos de cômodos comuns e de vocabulário aberto demonstram que o SceneWeaver não apenas supera métodos anteriores em métricas físicas, visuais e semânticas, mas também generaliza efetivamente para cenas complexas com instruções diversas, marcando um passo em direção à geração de ambientes 3D de propósito geral. Site do projeto: https://scene-weaver.github.io/.

English

Indoor scene synthesis has become increasingly important with the rise of Embodied AI, which requires 3D environments that are not only visually realistic but also physically plausible and functionally diverse. While recent approaches have advanced visual fidelity, they often remain constrained to fixed scene categories, lack sufficient object-level detail and physical consistency, and struggle to align with complex user instructions. In this work, we present SceneWeaver, a reflective agentic framework that unifies diverse scene synthesis paradigms through tool-based iterative refinement. At its core, SceneWeaver employs a language model-based planner to select from a suite of extensible scene generation tools, ranging from data-driven generative models to visual- and LLM-based methods, guided by self-evaluation of physical plausibility, visual realism, and semantic alignment with user input. This closed-loop reason-act-reflect design enables the agent to identify semantic inconsistencies, invoke targeted tools, and update the environment over successive iterations. Extensive experiments on both common and open-vocabulary room types demonstrate that SceneWeaver not only outperforms prior methods on physical, visual, and semantic metrics, but also generalizes effectively to complex scenes with diverse instructions, marking a step toward general-purpose 3D environment generation. Project website: https://scene-weaver.github.io/.

SceneWeaver: Síntese de Cenas 3D Tudo-em-Um com um Agente Extensível e Autorreflexivo

SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

Resumo

Support