ChatPaper.aiChatPaper

FlexWorld : Expansion progressive de scènes 3D pour la synthèse de vues flexibles

FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis

March 17, 2025
Auteurs: Luxi Chen, Zihan Zhou, Min Zhao, Yikai Wang, Ge Zhang, Wenhao Huang, Hao Sun, Ji-Rong Wen, Chongxuan Li
cs.AI

Résumé

Générer des scènes 3D à vues flexibles, incluant des rotations à 360{\deg} et des zooms, à partir d'images uniques est un défi en raison du manque de données 3D. Pour y remédier, nous présentons FlexWorld, un nouveau cadre de travail composé de deux éléments clés : (1) un modèle de diffusion vidéo-à-vidéo (V2V) puissant pour générer des images de nouvelles vues de haute qualité à partir d'entrées incomplètes rendues à partir d'une scène grossière, et (2) un processus d'expansion progressive pour construire une scène 3D complète. En particulier, en exploitant un modèle vidéo pré-entraîné avancé et des paires d'entraînement avec estimation précise de la profondeur, notre modèle V2V peut générer de nouvelles vues sous de grandes variations de pose de caméra. Sur cette base, FlexWorld génère progressivement de nouveaux contenus 3D et les intègre dans la scène globale grâce à une fusion de scène prenant en compte la géométrie. Des expériences approfondies démontrent l'efficacité de FlexWorld pour générer des vidéos de nouvelles vues de haute qualité et des scènes 3D à vues flexibles à partir d'images uniques, atteignant une qualité visuelle supérieure selon plusieurs métriques et jeux de données populaires par rapport aux méthodes existantes de pointe. Qualitativement, nous soulignons que FlexWorld peut générer des scènes de haute fidélité avec des vues flexibles comme des rotations à 360{\deg} et des zooms. Page du projet : https://ml-gsai.github.io/FlexWorld.
English
Generating flexible-view 3D scenes, including 360{\deg} rotation and zooming, from single images is challenging due to a lack of 3D data. To this end, we introduce FlexWorld, a novel framework consisting of two key components: (1) a strong video-to-video (V2V) diffusion model to generate high-quality novel view images from incomplete input rendered from a coarse scene, and (2) a progressive expansion process to construct a complete 3D scene. In particular, leveraging an advanced pre-trained video model and accurate depth-estimated training pairs, our V2V model can generate novel views under large camera pose variations. Building upon it, FlexWorld progressively generates new 3D content and integrates it into the global scene through geometry-aware scene fusion. Extensive experiments demonstrate the effectiveness of FlexWorld in generating high-quality novel view videos and flexible-view 3D scenes from single images, achieving superior visual quality under multiple popular metrics and datasets compared to existing state-of-the-art methods. Qualitatively, we highlight that FlexWorld can generate high-fidelity scenes with flexible views like 360{\deg} rotations and zooming. Project page: https://ml-gsai.github.io/FlexWorld.

Summary

AI-Generated Summary

PDF152March 19, 2025