SceneWeaver: Síntesis integral de escenas 3D con un agente extensible y autorreflexivo
SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent
September 24, 2025
Autores: Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang
cs.AI
Resumen
La síntesis de escenas interiores ha cobrado cada vez más importancia con el auge de la IA Embodied, que requiere entornos 3D que no solo sean visualmente realistas, sino también físicamente plausibles y funcionalmente diversos. Si bien los enfoques recientes han avanzado en la fidelidad visual, a menudo se limitan a categorías de escenas fijas, carecen de suficiente detalle a nivel de objetos y consistencia física, y tienen dificultades para alinearse con instrucciones complejas del usuario. En este trabajo, presentamos SceneWeaver, un marco agente reflexivo que unifica diversos paradigmas de síntesis de escenas mediante un refinamiento iterativo basado en herramientas. En su núcleo, SceneWeaver emplea un planificador basado en modelos de lenguaje para seleccionar entre un conjunto de herramientas extensibles de generación de escenas, que van desde modelos generativos basados en datos hasta métodos visuales y basados en LLM, guiados por una autoevaluación de la plausibilidad física, el realismo visual y la alineación semántica con la entrada del usuario. Este diseño de bucle cerrado razonar-actuar-reflexionar permite al agente identificar inconsistencias semánticas, invocar herramientas específicas y actualizar el entorno a lo largo de iteraciones sucesivas. Experimentos exhaustivos en tipos de habitaciones comunes y de vocabulario abierto demuestran que SceneWeaver no solo supera a los métodos anteriores en métricas físicas, visuales y semánticas, sino que también generaliza eficazmente a escenas complejas con instrucciones diversas, marcando un paso hacia la generación de entornos 3D de propósito general. Sitio web del proyecto: https://scene-weaver.github.io/.
English
Indoor scene synthesis has become increasingly important with the rise of
Embodied AI, which requires 3D environments that are not only visually
realistic but also physically plausible and functionally diverse. While recent
approaches have advanced visual fidelity, they often remain constrained to
fixed scene categories, lack sufficient object-level detail and physical
consistency, and struggle to align with complex user instructions. In this
work, we present SceneWeaver, a reflective agentic framework that unifies
diverse scene synthesis paradigms through tool-based iterative refinement. At
its core, SceneWeaver employs a language model-based planner to select from a
suite of extensible scene generation tools, ranging from data-driven generative
models to visual- and LLM-based methods, guided by self-evaluation of physical
plausibility, visual realism, and semantic alignment with user input. This
closed-loop reason-act-reflect design enables the agent to identify semantic
inconsistencies, invoke targeted tools, and update the environment over
successive iterations. Extensive experiments on both common and open-vocabulary
room types demonstrate that SceneWeaver not only outperforms prior methods on
physical, visual, and semantic metrics, but also generalizes effectively to
complex scenes with diverse instructions, marking a step toward general-purpose
3D environment generation. Project website: https://scene-weaver.github.io/.