SceneWeaver:拡張可能かつ自己反映型エージェントによるオールインワン3Dシーン合成
SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent
September 24, 2025
著者: Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang
cs.AI
要旨
屋内シーン合成は、Embodied AIの台頭に伴い、視覚的にリアルであるだけでなく、物理的に妥当で機能的に多様な3D環境を必要とするため、ますます重要になっています。最近のアプローチでは視覚的忠実度が向上していますが、固定されたシーンカテゴリに制限され、十分なオブジェクトレベルの詳細や物理的一貫性が欠けており、複雑なユーザー指示に合わせることが難しい場合が多くなっています。本研究では、SceneWeaverを紹介します。これは、ツールベースの反復的改良を通じて多様なシーン合成パラダイムを統合する反射的エージェントフレームワークです。SceneWeaverの中核では、言語モデルベースのプランナーを使用して、データ駆動型生成モデルから視覚的およびLLMベースの方法まで、物理的妥当性、視覚的リアリズム、ユーザー入力との意味的整合性の自己評価に基づいて、拡張可能なシーン生成ツール群から選択します。この閉ループの「理由-行動-反映」設計により、エージェントは意味的不整合を特定し、特定のツールを呼び出し、環境を連続的な反復で更新することができます。一般的な部屋タイプとオープン語彙の部屋タイプの両方での広範な実験により、SceneWeaverが物理的、視覚的、意味的メトリクスにおいて従来の方法を上回るだけでなく、多様な指示を持つ複雑なシーンにも効果的に一般化し、汎用3D環境生成に向けた一歩を踏み出していることが示されています。プロジェクトウェブサイト: https://scene-weaver.github.io/。
English
Indoor scene synthesis has become increasingly important with the rise of
Embodied AI, which requires 3D environments that are not only visually
realistic but also physically plausible and functionally diverse. While recent
approaches have advanced visual fidelity, they often remain constrained to
fixed scene categories, lack sufficient object-level detail and physical
consistency, and struggle to align with complex user instructions. In this
work, we present SceneWeaver, a reflective agentic framework that unifies
diverse scene synthesis paradigms through tool-based iterative refinement. At
its core, SceneWeaver employs a language model-based planner to select from a
suite of extensible scene generation tools, ranging from data-driven generative
models to visual- and LLM-based methods, guided by self-evaluation of physical
plausibility, visual realism, and semantic alignment with user input. This
closed-loop reason-act-reflect design enables the agent to identify semantic
inconsistencies, invoke targeted tools, and update the environment over
successive iterations. Extensive experiments on both common and open-vocabulary
room types demonstrate that SceneWeaver not only outperforms prior methods on
physical, visual, and semantic metrics, but also generalizes effectively to
complex scenes with diverse instructions, marking a step toward general-purpose
3D environment generation. Project website: https://scene-weaver.github.io/.