FlashWorld: Geração de Cenas 3D de Alta Qualidade em Segundos
FlashWorld: High-quality 3D Scene Generation within Seconds
October 15, 2025
Autores: Xinyang Li, Tengfei Wang, Zixiao Gu, Shengchuan Zhang, Chunchao Guo, Liujuan Cao
cs.AI
Resumo
Propomos o FlashWorld, um modelo generativo que produz cenas 3D a partir de uma única imagem ou prompt de texto em segundos, sendo 10 a 100 vezes mais rápido do que trabalhos anteriores, enquanto mantém uma qualidade de renderização superior. Nossa abordagem se afasta do paradigma convencional orientado a múltiplas vistas (MV-oriented), que gera imagens de múltiplas vistas para subsequente reconstrução 3D, para uma abordagem orientada a 3D, onde o modelo produz diretamente representações 3D de Gaussianas durante a geração de múltiplas vistas. Embora garanta consistência 3D, o método orientado a 3D geralmente sofre com qualidade visual inferior. O FlashWorld inclui uma fase de pré-treinamento em modo duplo seguida por uma fase de pós-treinamento em modo cruzado, integrando efetivamente as vantagens de ambos os paradigmas. Especificamente, aproveitando o conhecimento prévio de um modelo de difusão de vídeo, primeiro pré-treinamos um modelo de difusão de múltiplas vistas em modo duplo, que suporta conjuntamente modos de geração orientados a MV e 3D. Para reduzir a lacuna de qualidade na geração orientada a 3D, propomos ainda uma destilação de pós-treinamento em modo cruzado, alinhando a distribuição do modo consistente orientado a 3D com o modo de alta qualidade orientado a MV. Isso não apenas melhora a qualidade visual enquanto mantém a consistência 3D, mas também reduz o número de etapas de remoção de ruído necessárias para inferência. Além disso, propomos uma estratégia para aproveitar um grande número de imagens de vista única e prompts de texto durante esse processo, a fim de melhorar a generalização do modelo para entradas fora da distribuição. Experimentos extensivos demonstram a superioridade e eficiência do nosso método.
English
We propose FlashWorld, a generative model that produces 3D scenes from a
single image or text prompt in seconds, 10~100times faster than previous
works while possessing superior rendering quality. Our approach shifts from the
conventional multi-view-oriented (MV-oriented) paradigm, which generates
multi-view images for subsequent 3D reconstruction, to a 3D-oriented approach
where the model directly produces 3D Gaussian representations during multi-view
generation. While ensuring 3D consistency, 3D-oriented method typically suffers
poor visual quality. FlashWorld includes a dual-mode pre-training phase
followed by a cross-mode post-training phase, effectively integrating the
strengths of both paradigms. Specifically, leveraging the prior from a video
diffusion model, we first pre-train a dual-mode multi-view diffusion model,
which jointly supports MV-oriented and 3D-oriented generation modes. To bridge
the quality gap in 3D-oriented generation, we further propose a cross-mode
post-training distillation by matching distribution from consistent 3D-oriented
mode to high-quality MV-oriented mode. This not only enhances visual quality
while maintaining 3D consistency, but also reduces the required denoising steps
for inference. Also, we propose a strategy to leverage massive single-view
images and text prompts during this process to enhance the model's
generalization to out-of-distribution inputs. Extensive experiments demonstrate
the superiority and efficiency of our method.