SceneWeaver: All-in-One 3D-Szenensynthese mit einem erweiterbaren und selbstreflektierenden Agenten
SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent
September 24, 2025
papers.authors: Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang
cs.AI
papers.abstract
Die Synthese von Innenraumszenen hat mit dem Aufstieg von Embodied AI zunehmend an Bedeutung gewonnen, da sie 3D-Umgebungen erfordert, die nicht nur visuell realistisch, sondern auch physikalisch plausibel und funktional vielfältig sind. Während aktuelle Ansätze die visuelle Qualität verbessert haben, bleiben sie oft auf feste Szenenkategorien beschränkt, weisen unzureichende Detailgenauigkeit auf Objektebene und mangelnde physikalische Konsistenz auf und haben Schwierigkeiten, komplexe Benutzeranweisungen umzusetzen. In dieser Arbeit stellen wir SceneWeaver vor, ein reflexives agentenbasiertes Framework, das verschiedene Szenensyntheseparadigmen durch werkzeugbasierte iterative Verfeinerung vereint. Im Kern verwendet SceneWeaver einen sprachmodellbasierten Planer, um aus einer Reihe erweiterbarer Szenengenerierungswerkzeuge auszuwählen, die von datengetriebenen generativen Modellen bis hin zu visuellen und LLM-basierten Methoden reichen. Dies geschieht unter Berücksichtigung der Selbstbewertung von physikalischer Plausibilität, visuellem Realismus und semantischer Übereinstimmung mit Benutzereingaben. Dieser geschlossene Kreislauf aus Denken-Handeln-Reflektieren ermöglicht es dem Agenten, semantische Inkonsistenzen zu identifizieren, gezielte Werkzeuge aufzurufen und die Umgebung über aufeinanderfolgende Iterationen zu aktualisieren. Umfangreiche Experimente sowohl mit gängigen als auch offenen Raumtypen zeigen, dass SceneWeaver nicht nur frühere Methoden in Bezug auf physikalische, visuelle und semantische Metriken übertrifft, sondern auch effektiv auf komplexe Szenen mit vielfältigen Anweisungen verallgemeinert. Damit markiert es einen Schritt in Richtung der universellen 3D-Umgebungserzeugung. Projektwebsite: https://scene-weaver.github.io/.
English
Indoor scene synthesis has become increasingly important with the rise of
Embodied AI, which requires 3D environments that are not only visually
realistic but also physically plausible and functionally diverse. While recent
approaches have advanced visual fidelity, they often remain constrained to
fixed scene categories, lack sufficient object-level detail and physical
consistency, and struggle to align with complex user instructions. In this
work, we present SceneWeaver, a reflective agentic framework that unifies
diverse scene synthesis paradigms through tool-based iterative refinement. At
its core, SceneWeaver employs a language model-based planner to select from a
suite of extensible scene generation tools, ranging from data-driven generative
models to visual- and LLM-based methods, guided by self-evaluation of physical
plausibility, visual realism, and semantic alignment with user input. This
closed-loop reason-act-reflect design enables the agent to identify semantic
inconsistencies, invoke targeted tools, and update the environment over
successive iterations. Extensive experiments on both common and open-vocabulary
room types demonstrate that SceneWeaver not only outperforms prior methods on
physical, visual, and semantic metrics, but also generalizes effectively to
complex scenes with diverse instructions, marking a step toward general-purpose
3D environment generation. Project website: https://scene-weaver.github.io/.