WorldAgents: Modelos de Imagem de Base Podem Ser Agentes para Modelos de Mundo 3D?

Resumo

Dada a notável capacidade dos modelos de fundação 2D para imagens em gerar resultados de alta fidelidade, investigamos uma questão fundamental: os modelos de fundação 2D para imagens possuem inerentemente capacidades de modelos de mundo 3D? Para responder a isso, avaliamos sistematicamente vários modelos de geração de imagem e Modelos de Visão e Linguagem (VLMs) state-of-the-art na tarefa de síntese de mundos 3D. Para aproveitar e avaliar o seu potencial de capacidade 3D implícita, propomos um enquadramento agentivo para facilitar a geração de mundos 3D. A nossa abordagem emprega uma arquitetura multiagente: um diretor baseado em VLM que formula instruções (prompts) para orientar a síntese de imagens, um gerador que sintetiza novas vistas de imagem e um verificador de duas etapas apoiado por VLM que avalia e seleciona curadoria dos quadros gerados, tanto no espaço da imagem 2D quanto no da reconstrução 3D. Crucialmente, demonstramos que a nossa abordagem agentiva proporciona uma reconstrução 3D coerente e robusta, produzindo cenas de saída que podem ser exploradas através da renderização de novas vistas. Através de experiências extensas com vários modelos de fundação, demonstramos que os modelos 2D de facto encapsulam uma compreensão dos mundos 3D. Explorando esta compreensão, o nosso método sintetiza com sucesso mundos expansivos, realistas e 3D consistentes.

English

Given the remarkable ability of 2D foundation image models to generate high-fidelity outputs, we investigate a fundamental question: do 2D foundation image models inherently possess 3D world model capabilities? To answer this, we systematically evaluate multiple state-of-the-art image generation models and Vision-Language Models (VLMs) on the task of 3D world synthesis. To harness and benchmark their potential implicit 3D capability, we propose an agentic framing to facilitate 3D world generation. Our approach employs a multi-agent architecture: a VLM-based director that formulates prompts to guide image synthesis, a generator that synthesizes new image views, and a VLM-backed two-step verifier that evaluates and selectively curates generated frames from both 2D image and 3D reconstruction space. Crucially, we demonstrate that our agentic approach provides coherent and robust 3D reconstruction, producing output scenes that can be explored by rendering novel views. Through extensive experiments across various foundation models, we demonstrate that 2D models do indeed encapsulate a grasp of 3D worlds. By exploiting this understanding, our method successfully synthesizes expansive, realistic, and 3D-consistent worlds.