FlashWorld: Generación de escenas 3D de alta calidad en cuestión de segundos
FlashWorld: High-quality 3D Scene Generation within Seconds
October 15, 2025
Autores: Xinyang Li, Tengfei Wang, Zixiao Gu, Shengchuan Zhang, Chunchao Guo, Liujuan Cao
cs.AI
Resumen
Proponemos FlashWorld, un modelo generativo que produce escenas 3D a partir de una sola imagen o un prompt de texto en cuestión de segundos, siendo 10~100 veces más rápido que trabajos anteriores mientras mantiene una calidad de renderizado superior. Nuestro enfoque se aleja del paradigma convencional orientado a múltiples vistas (MV-oriented), que genera imágenes multivista para una posterior reconstrucción 3D, hacia un enfoque orientado a 3D donde el modelo produce directamente representaciones de Gaussianas 3D durante la generación multivista. Aunque garantiza la consistencia 3D, el método orientado a 3D suele presentar una calidad visual deficiente. FlashWorld incluye una fase de preentrenamiento en modo dual seguida de una fase de postentrenamiento en modo cruzado, integrando efectivamente las fortalezas de ambos paradigmas. Específicamente, aprovechando el conocimiento previo de un modelo de difusión de video, primero preentrenamos un modelo de difusión multivista en modo dual, que soporta conjuntamente los modos de generación orientados a MV y 3D. Para cerrar la brecha de calidad en la generación orientada a 3D, proponemos además una destilación de postentrenamiento en modo cruzado, emparejando la distribución del modo orientado a 3D consistente con el modo orientado a MV de alta calidad. Esto no solo mejora la calidad visual mientras mantiene la consistencia 3D, sino que también reduce los pasos de eliminación de ruido necesarios para la inferencia. Además, proponemos una estrategia para aprovechar grandes cantidades de imágenes de vista única y prompts de texto durante este proceso, mejorando la generalización del modelo a entradas fuera de distribución. Experimentos extensivos demuestran la superioridad y eficiencia de nuestro método.
English
We propose FlashWorld, a generative model that produces 3D scenes from a
single image or text prompt in seconds, 10~100times faster than previous
works while possessing superior rendering quality. Our approach shifts from the
conventional multi-view-oriented (MV-oriented) paradigm, which generates
multi-view images for subsequent 3D reconstruction, to a 3D-oriented approach
where the model directly produces 3D Gaussian representations during multi-view
generation. While ensuring 3D consistency, 3D-oriented method typically suffers
poor visual quality. FlashWorld includes a dual-mode pre-training phase
followed by a cross-mode post-training phase, effectively integrating the
strengths of both paradigms. Specifically, leveraging the prior from a video
diffusion model, we first pre-train a dual-mode multi-view diffusion model,
which jointly supports MV-oriented and 3D-oriented generation modes. To bridge
the quality gap in 3D-oriented generation, we further propose a cross-mode
post-training distillation by matching distribution from consistent 3D-oriented
mode to high-quality MV-oriented mode. This not only enhances visual quality
while maintaining 3D consistency, but also reduces the required denoising steps
for inference. Also, we propose a strategy to leverage massive single-view
images and text prompts during this process to enhance the model's
generalization to out-of-distribution inputs. Extensive experiments demonstrate
the superiority and efficiency of our method.