ChatPaper.aiChatPaper

WorldAgents: 파운데이션 이미지 모델이 3D 월드 모델의 에이전트가 될 수 있을까?

WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

March 20, 2026
저자: Ziya Erkoç, Angela Dai, Matthias Nießner
cs.AI

초록

2D 파운데이션 이미지 모델이 높은 정확도로 결과물을 생성하는 놀라운 능력을 고려하여, 우리는 근본적인 질문을 제기한다: 2D 파운데이션 이미지 모델은 본질적으로 3D 세계 모델 능력을 내재하고 있는가? 이를 확인하기 위해, 우리는 3D 세계 합성 과업에 대해 여러 최첨단 이미지 생성 모델과 시각-언어 모델(VLM)을 체계적으로 평가한다. 잠재적 내재 3D 능력을 활용하고 벤치마킹하기 위해, 3D 세계 생성을 용이하게 하는 에이전트 기반 프레임워크를 제안한다. 우리의 접근법은 다중 에이전트 아키텍처를 사용한다: 이미지 합성을 안내하는 프롬프트를 구성하는 VLM 기반 디렉터, 새로운 이미지 뷰를 합성하는 생성기, 그리고 2D 이미지 및 3D 재구성 공간 모두에서 생성된 프레임을 평가하고 선택적으로 큐레이션하는 VLM 기반 2단계 검증기이다. 핵심적으로, 우리의 에이전트 접근법이 일관되고 견고한 3D 재구성을 제공하여 새로운 시점 렌더링을 통해 탐색 가능한 출력 장면을 생성함을 입증한다. 다양한 파운데이션 모델을 통한 광범위한 실험을 통해, 2D 모델이 실제로 3D 세계에 대한 이해를 내포하고 있음을 보여준다. 이 이해를 활용함으로써, 우리의 방법은 확장성 있고 현실적이며 3D 일관성을 가진 세계의 성공적 합성에 성공한다.
English
Given the remarkable ability of 2D foundation image models to generate high-fidelity outputs, we investigate a fundamental question: do 2D foundation image models inherently possess 3D world model capabilities? To answer this, we systematically evaluate multiple state-of-the-art image generation models and Vision-Language Models (VLMs) on the task of 3D world synthesis. To harness and benchmark their potential implicit 3D capability, we propose an agentic framing to facilitate 3D world generation. Our approach employs a multi-agent architecture: a VLM-based director that formulates prompts to guide image synthesis, a generator that synthesizes new image views, and a VLM-backed two-step verifier that evaluates and selectively curates generated frames from both 2D image and 3D reconstruction space. Crucially, we demonstrate that our agentic approach provides coherent and robust 3D reconstruction, producing output scenes that can be explored by rendering novel views. Through extensive experiments across various foundation models, we demonstrate that 2D models do indeed encapsulate a grasp of 3D worlds. By exploiting this understanding, our method successfully synthesizes expansive, realistic, and 3D-consistent worlds.
PDF91March 24, 2026