ChatPaper.aiChatPaper

FlexWorld: Expansión Progresiva de Escenas 3D para Síntesis Flexible de Vistas

FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis

March 17, 2025
Autores: Luxi Chen, Zihan Zhou, Min Zhao, Yikai Wang, Ge Zhang, Wenhao Huang, Hao Sun, Ji-Rong Wen, Chongxuan Li
cs.AI

Resumen

Generar escenas 3D con vistas flexibles, incluyendo rotaciones de 360° y zoom, a partir de imágenes individuales es un desafío debido a la falta de datos 3D. Para abordar esto, presentamos FlexWorld, un marco novedoso que consta de dos componentes clave: (1) un modelo de difusión video-a-video (V2V) robusto para generar imágenes de nuevas vistas de alta calidad a partir de entradas incompletas renderizadas desde una escena aproximada, y (2) un proceso de expansión progresiva para construir una escena 3D completa. En particular, aprovechando un modelo de video preentrenado avanzado y pares de entrenamiento con estimación precisa de profundidad, nuestro modelo V2V puede generar nuevas vistas bajo grandes variaciones de pose de cámara. Sobre esta base, FlexWorld genera progresivamente nuevo contenido 3D y lo integra en la escena global mediante una fusión de escena consciente de la geometría. Experimentos extensos demuestran la efectividad de FlexWorld en la generación de videos de nuevas vistas de alta calidad y escenas 3D con vistas flexibles a partir de imágenes individuales, logrando una calidad visual superior bajo múltiples métricas y conjuntos de datos populares en comparación con los métodos más avanzados existentes. Cualitativamente, destacamos que FlexWorld puede generar escenas de alta fidelidad con vistas flexibles como rotaciones de 360° y zoom. Página del proyecto: https://ml-gsai.github.io/FlexWorld.
English
Generating flexible-view 3D scenes, including 360{\deg} rotation and zooming, from single images is challenging due to a lack of 3D data. To this end, we introduce FlexWorld, a novel framework consisting of two key components: (1) a strong video-to-video (V2V) diffusion model to generate high-quality novel view images from incomplete input rendered from a coarse scene, and (2) a progressive expansion process to construct a complete 3D scene. In particular, leveraging an advanced pre-trained video model and accurate depth-estimated training pairs, our V2V model can generate novel views under large camera pose variations. Building upon it, FlexWorld progressively generates new 3D content and integrates it into the global scene through geometry-aware scene fusion. Extensive experiments demonstrate the effectiveness of FlexWorld in generating high-quality novel view videos and flexible-view 3D scenes from single images, achieving superior visual quality under multiple popular metrics and datasets compared to existing state-of-the-art methods. Qualitatively, we highlight that FlexWorld can generate high-fidelity scenes with flexible views like 360{\deg} rotations and zooming. Project page: https://ml-gsai.github.io/FlexWorld.
PDF152March 19, 2025