SceneWeaver: Sintesi di Scene 3D Tutto-in-Uno con un Agente Estensibile e Auto-Riflessivo

Abstract

La sintesi di scene indoor è diventata sempre più importante con l'ascesa dell'Embodied AI, che richiede ambienti 3D non solo visivamente realistici, ma anche fisicamente plausibili e funzionalmente diversificati. Sebbene gli approcci recenti abbiano migliorato la fedeltà visiva, spesso rimangono limitati a categorie di scene fisse, mancano di dettagli sufficienti a livello di oggetti e di coerenza fisica, e faticano ad allinearsi con istruzioni complesse dell'utente. In questo lavoro, presentiamo SceneWeaver, un framework agentico riflessivo che unifica paradigmi diversi di sintesi di scene attraverso un affinamento iterativo basato su strumenti. Al suo core, SceneWeaver utilizza un pianificatore basato su modelli linguistici per selezionare da una suite di strumenti estensibili per la generazione di scene, che vanno da modelli generativi basati su dati a metodi visivi e basati su LLM, guidati da una autovalutazione della plausibilità fisica, del realismo visivo e dell'allineamento semantico con l'input dell'utente. Questo design a ciclo chiuso ragiona-agisci-riflette consente all'agente di identificare inconsistenze semantiche, invocare strumenti mirati e aggiornare l'ambiente attraverso iterazioni successive. Esperimenti estensivi su tipi di stanze comuni e a vocabolario aperto dimostrano che SceneWeaver non solo supera i metodi precedenti in termini di metriche fisiche, visive e semantiche, ma si generalizza efficacemente anche a scene complesse con istruzioni diversificate, segnando un passo verso la generazione di ambienti 3D a scopo generale. Sito web del progetto: https://scene-weaver.github.io/.

English

Indoor scene synthesis has become increasingly important with the rise of Embodied AI, which requires 3D environments that are not only visually realistic but also physically plausible and functionally diverse. While recent approaches have advanced visual fidelity, they often remain constrained to fixed scene categories, lack sufficient object-level detail and physical consistency, and struggle to align with complex user instructions. In this work, we present SceneWeaver, a reflective agentic framework that unifies diverse scene synthesis paradigms through tool-based iterative refinement. At its core, SceneWeaver employs a language model-based planner to select from a suite of extensible scene generation tools, ranging from data-driven generative models to visual- and LLM-based methods, guided by self-evaluation of physical plausibility, visual realism, and semantic alignment with user input. This closed-loop reason-act-reflect design enables the agent to identify semantic inconsistencies, invoke targeted tools, and update the environment over successive iterations. Extensive experiments on both common and open-vocabulary room types demonstrate that SceneWeaver not only outperforms prior methods on physical, visual, and semantic metrics, but also generalizes effectively to complex scenes with diverse instructions, marking a step toward general-purpose 3D environment generation. Project website: https://scene-weaver.github.io/.

SceneWeaver: Sintesi di Scene 3D Tutto-in-Uno con un Agente Estensibile e Auto-Riflessivo

SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

Abstract

Support