WorldAgents: I modelli di immagini foundation possono essere agenti per modelli di mondo 3D?

Abstract

Data la straordinaria capacità dei modelli fondazionali di immagini 2D di generare output ad alta fedeltà, ci poniamo una domanda fondamentale: i modelli fondazionali di immagini 2D possiedono intrinsecamente capacità di modellazione del mondo 3D? Per rispondere, valutiamo sistematicamente molteplici modelli all'avanguardia per la generazione di immagini e Modelli Visione-Linguaggio (VLM) sul compito di sintesi del mondo 3D. Per sfruttare e misurare il loro potenziale capability 3D implicito, proponiamo un approccio agentivo per facilitare la generazione del mondo 3D. Il nostro metodo impiega un'architettura multi-agente: un direttore basato su VLM che formula prompt per guidare la sintesi delle immagini, un generatore che sintetizza nuove viste immagine e un verificatore a due fasi supportato da VLM che valuta e seleziona in modo curato i fotogrammi generati sia dallo spazio dell'immagine 2D che dalla ricostruzione 3D. In modo cruciale, dimostriamo che il nostro approccio agentivo fornisce una ricostruzione 3D coerente e robusta, producendo scene di output che possono essere esplorate tramite il rendering di nuove viste. Attraverso esperimenti estesi su vari modelli fondazionali, dimostriamo che i modelli 2D racchiudono effettivamente una comprensione dei mondi 3D. Sfruttando questa comprensione, il nostro metodo sintetizza con successo mondi espansivi, realistici e 3D-consistenti.

English

Given the remarkable ability of 2D foundation image models to generate high-fidelity outputs, we investigate a fundamental question: do 2D foundation image models inherently possess 3D world model capabilities? To answer this, we systematically evaluate multiple state-of-the-art image generation models and Vision-Language Models (VLMs) on the task of 3D world synthesis. To harness and benchmark their potential implicit 3D capability, we propose an agentic framing to facilitate 3D world generation. Our approach employs a multi-agent architecture: a VLM-based director that formulates prompts to guide image synthesis, a generator that synthesizes new image views, and a VLM-backed two-step verifier that evaluates and selectively curates generated frames from both 2D image and 3D reconstruction space. Crucially, we demonstrate that our agentic approach provides coherent and robust 3D reconstruction, producing output scenes that can be explored by rendering novel views. Through extensive experiments across various foundation models, we demonstrate that 2D models do indeed encapsulate a grasp of 3D worlds. By exploiting this understanding, our method successfully synthesizes expansive, realistic, and 3D-consistent worlds.

WorldAgents: I modelli di immagini foundation possono essere agenti per modelli di mondo 3D?

WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

Abstract

Support