SceneWeaver: 확장 가능하고 자기 반영적인 에이전트를 통한 올인원 3D 장면 합성
SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent
September 24, 2025
저자: Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang
cs.AI
초록
실내 장면 합성은 구현된 AI의 부상과 함께 점점 더 중요해지고 있으며, 이는 시각적으로 현실적일 뿐만 아니라 물리적으로 타당하고 기능적으로 다양해야 하는 3D 환경을 요구합니다. 최근의 접근법들은 시각적 충실도를 향상시켰지만, 여전히 고정된 장면 카테고리에 제한되고, 충분한 객체 수준의 세부 사항과 물리적 일관성이 부족하며, 복잡한 사용자 지시와의 정렬에 어려움을 겪습니다. 본 연구에서는 SceneWeaver를 소개합니다. 이는 도구 기반 반복적 개선을 통해 다양한 장면 합성 패러다임을 통합하는 반영적 에이전트 프레임워크입니다. SceneWeaver의 핵심은 언어 모델 기반 플래너를 사용하여 데이터 기반 생성 모델부터 시각적 및 LLM 기반 방법에 이르기까지 확장 가능한 장면 생성 도구 세트 중에서 선택하며, 물리적 타당성, 시각적 현실성, 사용자 입력과의 의미적 정렬에 대한 자체 평가를 통해 안내됩니다. 이 폐쇄형 루프 설계는 에이전트가 의미적 불일치를 식별하고, 특정 도구를 호출하며, 연속적인 반복을 통해 환경을 업데이트할 수 있게 합니다. 일반적 및 개방형 어휘 방 유형에 대한 광범위한 실험을 통해 SceneWeaver가 물리적, 시각적, 의미적 지표에서 이전 방법들을 능가할 뿐만 아니라 다양한 지시가 있는 복잡한 장면에 효과적으로 일반화함을 보여주며, 이는 범용 3D 환경 생성으로 나아가는 한 걸음을 표시합니다. 프로젝트 웹사이트: https://scene-weaver.github.io/.
English
Indoor scene synthesis has become increasingly important with the rise of
Embodied AI, which requires 3D environments that are not only visually
realistic but also physically plausible and functionally diverse. While recent
approaches have advanced visual fidelity, they often remain constrained to
fixed scene categories, lack sufficient object-level detail and physical
consistency, and struggle to align with complex user instructions. In this
work, we present SceneWeaver, a reflective agentic framework that unifies
diverse scene synthesis paradigms through tool-based iterative refinement. At
its core, SceneWeaver employs a language model-based planner to select from a
suite of extensible scene generation tools, ranging from data-driven generative
models to visual- and LLM-based methods, guided by self-evaluation of physical
plausibility, visual realism, and semantic alignment with user input. This
closed-loop reason-act-reflect design enables the agent to identify semantic
inconsistencies, invoke targeted tools, and update the environment over
successive iterations. Extensive experiments on both common and open-vocabulary
room types demonstrate that SceneWeaver not only outperforms prior methods on
physical, visual, and semantic metrics, but also generalizes effectively to
complex scenes with diverse instructions, marking a step toward general-purpose
3D environment generation. Project website: https://scene-weaver.github.io/.