ChatPaper.aiChatPaper

FlexWorld: Expansão Progressiva de Cenas 3D para Síntese de Visão Flexível

FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis

March 17, 2025
Autores: Luxi Chen, Zihan Zhou, Min Zhao, Yikai Wang, Ge Zhang, Wenhao Huang, Hao Sun, Ji-Rong Wen, Chongxuan Li
cs.AI

Resumo

Gerar cenas 3D com visualização flexível, incluindo rotação de 360° e zoom, a partir de imagens únicas é um desafio devido à falta de dados 3D. Para isso, introduzimos o FlexWorld, uma nova estrutura composta por dois componentes principais: (1) um modelo robusto de difusão vídeo-para-vídeo (V2V) para gerar imagens de novas perspectivas de alta qualidade a partir de uma entrada incompleta renderizada de uma cena grosseira, e (2) um processo de expansão progressiva para construir uma cena 3D completa. Em particular, aproveitando um modelo de vídeo pré-treinado avançado e pares de treinamento com estimativa de profundidade precisa, nosso modelo V2V pode gerar novas perspectivas sob grandes variações de pose da câmera. Com base nisso, o FlexWorld gera progressivamente novo conteúdo 3D e o integra à cena global por meio de fusão de cena com consciência geométrica. Experimentos extensivos demonstram a eficácia do FlexWorld na geração de vídeos de novas perspectivas e cenas 3D com visualização flexível a partir de imagens únicas, alcançando qualidade visual superior em múltiplas métricas e conjuntos de dados populares em comparação com os métodos state-of-the-art existentes. Qualitativamente, destacamos que o FlexWorld pode gerar cenas de alta fidelidade com visualizações flexíveis, como rotações de 360° e zoom. Página do projeto: https://ml-gsai.github.io/FlexWorld.
English
Generating flexible-view 3D scenes, including 360{\deg} rotation and zooming, from single images is challenging due to a lack of 3D data. To this end, we introduce FlexWorld, a novel framework consisting of two key components: (1) a strong video-to-video (V2V) diffusion model to generate high-quality novel view images from incomplete input rendered from a coarse scene, and (2) a progressive expansion process to construct a complete 3D scene. In particular, leveraging an advanced pre-trained video model and accurate depth-estimated training pairs, our V2V model can generate novel views under large camera pose variations. Building upon it, FlexWorld progressively generates new 3D content and integrates it into the global scene through geometry-aware scene fusion. Extensive experiments demonstrate the effectiveness of FlexWorld in generating high-quality novel view videos and flexible-view 3D scenes from single images, achieving superior visual quality under multiple popular metrics and datasets compared to existing state-of-the-art methods. Qualitatively, we highlight that FlexWorld can generate high-fidelity scenes with flexible views like 360{\deg} rotations and zooming. Project page: https://ml-gsai.github.io/FlexWorld.

Summary

AI-Generated Summary

PDF152March 19, 2025