SceneWeaver : Synthèse de scènes 3D tout-en-un avec un agent extensible et auto-réfléchissant

papers.abstract

La synthèse de scènes intérieures est devenue de plus en plus importante avec l'essor de l'IA incarnée, qui nécessite des environnements 3D non seulement visuellement réalistes, mais aussi physiquement plausibles et fonctionnellement diversifiés. Bien que les approches récentes aient amélioré la fidélité visuelle, elles restent souvent limitées à des catégories de scènes fixes, manquent de détails au niveau des objets et de cohérence physique, et peinent à s'aligner sur des instructions utilisateur complexes. Dans ce travail, nous présentons SceneWeaver, un cadre agentif réflexif qui unifie divers paradigmes de synthèse de scènes grâce à un raffinement itératif basé sur des outils. Au cœur de SceneWeaver se trouve un planificateur basé sur un modèle de langage qui sélectionne parmi une suite d'outils extensibles de génération de scènes, allant des modèles génératifs basés sur les données aux méthodes visuelles et basées sur les LLM, guidé par une auto-évaluation de la plausibilité physique, du réalisme visuel et de l'alignement sémantique avec l'entrée utilisateur. Cette conception en boucle fermée raisonner-agir-réfléchir permet à l'agent d'identifier les incohérences sémantiques, d'invoquer des outils ciblés et de mettre à jour l'environnement au fil des itérations successives. Des expériences approfondies sur des types de pièces courants et à vocabulaire ouvert démontrent que SceneWeaver surpasse non seulement les méthodes antérieures sur les métriques physiques, visuelles et sémantiques, mais généralise également efficacement à des scènes complexes avec des instructions variées, marquant ainsi une étape vers la génération d'environnements 3D à usage général. Site web du projet : https://scene-weaver.github.io/.

English

Indoor scene synthesis has become increasingly important with the rise of Embodied AI, which requires 3D environments that are not only visually realistic but also physically plausible and functionally diverse. While recent approaches have advanced visual fidelity, they often remain constrained to fixed scene categories, lack sufficient object-level detail and physical consistency, and struggle to align with complex user instructions. In this work, we present SceneWeaver, a reflective agentic framework that unifies diverse scene synthesis paradigms through tool-based iterative refinement. At its core, SceneWeaver employs a language model-based planner to select from a suite of extensible scene generation tools, ranging from data-driven generative models to visual- and LLM-based methods, guided by self-evaluation of physical plausibility, visual realism, and semantic alignment with user input. This closed-loop reason-act-reflect design enables the agent to identify semantic inconsistencies, invoke targeted tools, and update the environment over successive iterations. Extensive experiments on both common and open-vocabulary room types demonstrate that SceneWeaver not only outperforms prior methods on physical, visual, and semantic metrics, but also generalizes effectively to complex scenes with diverse instructions, marking a step toward general-purpose 3D environment generation. Project website: https://scene-weaver.github.io/.

SceneWeaver : Synthèse de scènes 3D tout-en-un avec un agent extensible et auto-réfléchissant

SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

papers.abstract

Support