ChatPaper.aiChatPaper

FlexWorld: Geleidelijk Uitbreidende 3D-Scènes voor Flexibele Beeldsynthese

FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis

March 17, 2025
Auteurs: Luxi Chen, Zihan Zhou, Min Zhao, Yikai Wang, Ge Zhang, Wenhao Huang, Hao Sun, Ji-Rong Wen, Chongxuan Li
cs.AI

Samenvatting

Het genereren van 3D-scènes met flexibele weergaven, inclusief 360° rotatie en zoomen, vanuit enkele afbeeldingen is uitdagend vanwege een gebrek aan 3D-data. Daarom introduceren we FlexWorld, een nieuw framework dat bestaat uit twee belangrijke componenten: (1) een krachtig video-naar-video (V2V) diffusiemodel om hoogwaardige nieuwe beelden te genereren vanuit onvolledige input die is gerenderd vanuit een grove scène, en (2) een progressief uitbreidingsproces om een complete 3D-scène te construeren. In het bijzonder kan ons V2V-model, door gebruik te maken van een geavanceerd vooraf getraind videomodel en nauwkeurige diepte-geschatte trainingsparen, nieuwe weergaven genereren onder grote variaties in camerapositie. Hierop voortbouwend genereert FlexWorld progressief nieuwe 3D-inhoud en integreert deze in de globale scène via geometrie-bewuste scènefusie. Uitgebreide experimenten tonen de effectiviteit van FlexWorld aan in het genereren van hoogwaardige nieuwe weergavevideo's en flexibele-weergave 3D-scènes vanuit enkele afbeeldingen, waarbij superieure visuele kwaliteit wordt bereikt onder meerdere populaire metrieken en datasets in vergelijking met bestaande state-of-the-art methoden. Kwalitatief benadrukken we dat FlexWorld hoogwaardige scènes kan genereren met flexibele weergaven zoals 360° rotaties en zoomen. Projectpagina: https://ml-gsai.github.io/FlexWorld.
English
Generating flexible-view 3D scenes, including 360{\deg} rotation and zooming, from single images is challenging due to a lack of 3D data. To this end, we introduce FlexWorld, a novel framework consisting of two key components: (1) a strong video-to-video (V2V) diffusion model to generate high-quality novel view images from incomplete input rendered from a coarse scene, and (2) a progressive expansion process to construct a complete 3D scene. In particular, leveraging an advanced pre-trained video model and accurate depth-estimated training pairs, our V2V model can generate novel views under large camera pose variations. Building upon it, FlexWorld progressively generates new 3D content and integrates it into the global scene through geometry-aware scene fusion. Extensive experiments demonstrate the effectiveness of FlexWorld in generating high-quality novel view videos and flexible-view 3D scenes from single images, achieving superior visual quality under multiple popular metrics and datasets compared to existing state-of-the-art methods. Qualitatively, we highlight that FlexWorld can generate high-fidelity scenes with flexible views like 360{\deg} rotations and zooming. Project page: https://ml-gsai.github.io/FlexWorld.

Summary

AI-Generated Summary

PDF152March 19, 2025