ChatPaper.aiChatPaper

SceneWeaver: Alles-in-één 3D-scènesynthese met een uitbreidbare en zelfreflecterende agent

SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

September 24, 2025
Auteurs: Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang
cs.AI

Samenvatting

Indoor scene-synthese is steeds belangrijker geworden met de opkomst van Embodied AI, wat 3D-omgevingen vereist die niet alleen visueel realistisch zijn, maar ook fysiek plausibel en functioneel divers. Hoewel recente benaderingen de visuele kwaliteit hebben verbeterd, blijven ze vaak beperkt tot vaste scènecategorieën, ontbreekt het aan voldoende objectniveau-detail en fysieke consistentie, en hebben ze moeite om complexe gebruikersinstructies te volgen. In dit werk presenteren we SceneWeaver, een reflectief agentisch framework dat diverse scene-syntheseparadigma's verenigt via tool-gebaseerde iteratieve verfijning. SceneWeaver maakt in de kern gebruik van een taalmodel-gebaseerde planner om te kiezen uit een reeks uitbreidbare scene-generatietools, variërend van data-gedreven generatieve modellen tot visuele en LLM-gebaseerde methoden, geleid door zelfevaluatie van fysieke plausibiliteit, visuele realiteit en semantische afstemming met gebruikersinput. Dit gesloten-lus reden-handel-reflecteer ontwerp stelt de agent in staat om semantische inconsistenties te identificeren, gerichte tools aan te roepen en de omgeving over opeenvolgende iteraties bij te werken. Uitgebreide experimenten op zowel gangbare als open-vocabulair kamertypes tonen aan dat SceneWeaver niet alleen eerdere methoden overtreft op fysieke, visuele en semantische metrieken, maar ook effectief generaliseert naar complexe scènes met diverse instructies, wat een stap markeert richting algemene 3D-omgevingsgeneratie. Projectwebsite: https://scene-weaver.github.io/.
English
Indoor scene synthesis has become increasingly important with the rise of Embodied AI, which requires 3D environments that are not only visually realistic but also physically plausible and functionally diverse. While recent approaches have advanced visual fidelity, they often remain constrained to fixed scene categories, lack sufficient object-level detail and physical consistency, and struggle to align with complex user instructions. In this work, we present SceneWeaver, a reflective agentic framework that unifies diverse scene synthesis paradigms through tool-based iterative refinement. At its core, SceneWeaver employs a language model-based planner to select from a suite of extensible scene generation tools, ranging from data-driven generative models to visual- and LLM-based methods, guided by self-evaluation of physical plausibility, visual realism, and semantic alignment with user input. This closed-loop reason-act-reflect design enables the agent to identify semantic inconsistencies, invoke targeted tools, and update the environment over successive iterations. Extensive experiments on both common and open-vocabulary room types demonstrate that SceneWeaver not only outperforms prior methods on physical, visual, and semantic metrics, but also generalizes effectively to complex scenes with diverse instructions, marking a step toward general-purpose 3D environment generation. Project website: https://scene-weaver.github.io/.
PDF82September 26, 2025