FlashWorld: Generación de escenas 3D de alta calidad en cuestión de segundos

Resumen

Proponemos FlashWorld, un modelo generativo que produce escenas 3D a partir de una sola imagen o un prompt de texto en cuestión de segundos, siendo 10~100 veces más rápido que trabajos anteriores mientras mantiene una calidad de renderizado superior. Nuestro enfoque se aleja del paradigma convencional orientado a múltiples vistas (MV-oriented), que genera imágenes multivista para una posterior reconstrucción 3D, hacia un enfoque orientado a 3D donde el modelo produce directamente representaciones de Gaussianas 3D durante la generación multivista. Aunque garantiza la consistencia 3D, el método orientado a 3D suele presentar una calidad visual deficiente. FlashWorld incluye una fase de preentrenamiento en modo dual seguida de una fase de postentrenamiento en modo cruzado, integrando efectivamente las fortalezas de ambos paradigmas. Específicamente, aprovechando el conocimiento previo de un modelo de difusión de video, primero preentrenamos un modelo de difusión multivista en modo dual, que soporta conjuntamente los modos de generación orientados a MV y 3D. Para cerrar la brecha de calidad en la generación orientada a 3D, proponemos además una destilación de postentrenamiento en modo cruzado, emparejando la distribución del modo orientado a 3D consistente con el modo orientado a MV de alta calidad. Esto no solo mejora la calidad visual mientras mantiene la consistencia 3D, sino que también reduce los pasos de eliminación de ruido necesarios para la inferencia. Además, proponemos una estrategia para aprovechar grandes cantidades de imágenes de vista única y prompts de texto durante este proceso, mejorando la generalización del modelo a entradas fuera de distribución. Experimentos extensivos demuestran la superioridad y eficiencia de nuestro método.

English

We propose FlashWorld, a generative model that produces 3D scenes from a single image or text prompt in seconds, 10~100times faster than previous works while possessing superior rendering quality. Our approach shifts from the conventional multi-view-oriented (MV-oriented) paradigm, which generates multi-view images for subsequent 3D reconstruction, to a 3D-oriented approach where the model directly produces 3D Gaussian representations during multi-view generation. While ensuring 3D consistency, 3D-oriented method typically suffers poor visual quality. FlashWorld includes a dual-mode pre-training phase followed by a cross-mode post-training phase, effectively integrating the strengths of both paradigms. Specifically, leveraging the prior from a video diffusion model, we first pre-train a dual-mode multi-view diffusion model, which jointly supports MV-oriented and 3D-oriented generation modes. To bridge the quality gap in 3D-oriented generation, we further propose a cross-mode post-training distillation by matching distribution from consistent 3D-oriented mode to high-quality MV-oriented mode. This not only enhances visual quality while maintaining 3D consistency, but also reduces the required denoising steps for inference. Also, we propose a strategy to leverage massive single-view images and text prompts during this process to enhance the model's generalization to out-of-distribution inputs. Extensive experiments demonstrate the superiority and efficiency of our method.

FlashWorld: Generación de escenas 3D de alta calidad en cuestión de segundos

FlashWorld: High-quality 3D Scene Generation within Seconds

Resumen

Support