ChatPaper.aiChatPaper

FlexWorld: Espansione Progressiva di Scene 3D per la Sintesi Flessibile della Vista

FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis

March 17, 2025
Autori: Luxi Chen, Zihan Zhou, Min Zhao, Yikai Wang, Ge Zhang, Wenhao Huang, Hao Sun, Ji-Rong Wen, Chongxuan Li
cs.AI

Abstract

Generare scene 3D con visualizzazione flessibile, inclusa la rotazione a 360° e lo zoom, a partire da singole immagini è una sfida a causa della mancanza di dati 3D. A tal fine, introduciamo FlexWorld, un nuovo framework composto da due componenti chiave: (1) un robusto modello di diffusione video-to-video (V2V) per generare immagini di nuove visualizzazioni di alta qualità a partire da input incompleti renderizzati da una scena approssimativa, e (2) un processo di espansione progressiva per costruire una scena 3D completa. In particolare, sfruttando un modello video pre-addestrato avanzato e coppie di addestramento con stime di profondità accurate, il nostro modello V2V è in grado di generare nuove visualizzazioni con ampie variazioni della posizione della telecamera. Basandosi su questo, FlexWorld genera progressivamente nuovi contenuti 3D e li integra nella scena globale attraverso una fusione di scene consapevole della geometria. Esperimenti estensivi dimostrano l'efficacia di FlexWorld nella generazione di video di nuove visualizzazioni di alta qualità e scene 3D con visualizzazione flessibile a partire da singole immagini, raggiungendo una qualità visiva superiore secondo molteplici metriche e dataset popolari rispetto ai metodi state-of-the-art esistenti. Qualitativamente, evidenziamo che FlexWorld è in grado di generare scene ad alta fedeltà con visualizzazioni flessibili come rotazioni a 360° e zoom. Pagina del progetto: https://ml-gsai.github.io/FlexWorld.
English
Generating flexible-view 3D scenes, including 360{\deg} rotation and zooming, from single images is challenging due to a lack of 3D data. To this end, we introduce FlexWorld, a novel framework consisting of two key components: (1) a strong video-to-video (V2V) diffusion model to generate high-quality novel view images from incomplete input rendered from a coarse scene, and (2) a progressive expansion process to construct a complete 3D scene. In particular, leveraging an advanced pre-trained video model and accurate depth-estimated training pairs, our V2V model can generate novel views under large camera pose variations. Building upon it, FlexWorld progressively generates new 3D content and integrates it into the global scene through geometry-aware scene fusion. Extensive experiments demonstrate the effectiveness of FlexWorld in generating high-quality novel view videos and flexible-view 3D scenes from single images, achieving superior visual quality under multiple popular metrics and datasets compared to existing state-of-the-art methods. Qualitatively, we highlight that FlexWorld can generate high-fidelity scenes with flexible views like 360{\deg} rotations and zooming. Project page: https://ml-gsai.github.io/FlexWorld.
PDF152March 19, 2025