FlashWorld : Génération de scènes 3D de haute qualité en quelques secondes
FlashWorld: High-quality 3D Scene Generation within Seconds
October 15, 2025
papers.authors: Xinyang Li, Tengfei Wang, Zixiao Gu, Shengchuan Zhang, Chunchao Guo, Liujuan Cao
cs.AI
papers.abstract
Nous proposons FlashWorld, un modèle génératif qui produit des scènes 3D à partir d'une seule image ou d'une invite textuelle en quelques secondes, 10 à 100 fois plus rapidement que les travaux précédents tout en offrant une qualité de rendu supérieure. Notre approche s'écarte du paradigme conventionnel orienté multi-vues (MV-oriented), qui génère des images multi-vues pour une reconstruction 3D ultérieure, pour adopter une approche orientée 3D où le modèle produit directement des représentations 3D basées sur des Gaussiennes pendant la génération multi-vues. Bien que garantissant la cohérence 3D, la méthode orientée 3D souffre généralement d'une qualité visuelle médiocre. FlashWorld inclut une phase de pré-entraînement en mode double suivie d'une phase de post-entraînement inter-mode, intégrant efficacement les forces des deux paradigmes. Plus précisément, en exploitant les connaissances préalables d'un modèle de diffusion vidéo, nous pré-entraînons d'abord un modèle de diffusion multi-vues en mode double, qui supporte conjointement les modes de génération orientés MV et 3D. Pour combler l'écart de qualité dans la génération orientée 3D, nous proposons en outre une distillation post-entraînement inter-mode en alignant la distribution du mode orienté 3D cohérent vers le mode orienté MV de haute qualité. Cela améliore non seulement la qualité visuelle tout en maintenant la cohérence 3D, mais réduit également le nombre d'étapes de débruitage nécessaires pour l'inférence. De plus, nous proposons une stratégie pour exploiter un grand nombre d'images mono-vues et d'invites textuelles pendant ce processus afin d'améliorer la généralisation du modèle aux entrées hors distribution. Des expériences approfondies démontrent la supériorité et l'efficacité de notre méthode.
English
We propose FlashWorld, a generative model that produces 3D scenes from a
single image or text prompt in seconds, 10~100times faster than previous
works while possessing superior rendering quality. Our approach shifts from the
conventional multi-view-oriented (MV-oriented) paradigm, which generates
multi-view images for subsequent 3D reconstruction, to a 3D-oriented approach
where the model directly produces 3D Gaussian representations during multi-view
generation. While ensuring 3D consistency, 3D-oriented method typically suffers
poor visual quality. FlashWorld includes a dual-mode pre-training phase
followed by a cross-mode post-training phase, effectively integrating the
strengths of both paradigms. Specifically, leveraging the prior from a video
diffusion model, we first pre-train a dual-mode multi-view diffusion model,
which jointly supports MV-oriented and 3D-oriented generation modes. To bridge
the quality gap in 3D-oriented generation, we further propose a cross-mode
post-training distillation by matching distribution from consistent 3D-oriented
mode to high-quality MV-oriented mode. This not only enhances visual quality
while maintaining 3D consistency, but also reduces the required denoising steps
for inference. Also, we propose a strategy to leverage massive single-view
images and text prompts during this process to enhance the model's
generalization to out-of-distribution inputs. Extensive experiments demonstrate
the superiority and efficiency of our method.