FlashWorld: Hochwertige 3D-Szenerie-Generierung in Sekunden
FlashWorld: High-quality 3D Scene Generation within Seconds
October 15, 2025
papers.authors: Xinyang Li, Tengfei Wang, Zixiao Gu, Shengchuan Zhang, Chunchao Guo, Liujuan Cao
cs.AI
papers.abstract
Wir präsentieren FlashWorld, ein generatives Modell, das 3D-Szenen aus einem einzelnen Bild oder Textprompt in Sekunden erzeugt, 10–100 Mal schneller als bisherige Arbeiten, bei gleichzeitig überlegener Renderqualität. Unser Ansatz weicht vom konventionellen Multi-View-orientierten (MV-orientierten) Paradigma ab, das Multi-View-Bilder für die anschließende 3D-Rekonstruktion generiert, und geht stattdessen zu einem 3D-orientierten Ansatz über, bei dem das Modell während der Multi-View-Generierung direkt 3D-Gaußsche Repräsentationen erzeugt. Während die 3D-Konsistenz gewährleistet wird, leidet die 3D-orientierte Methode typischerweise unter einer schlechten visuellen Qualität. FlashWorld umfasst eine dualmodale Vorausbildungsphase, gefolgt von einer cross-modalen Nachausbildungsphase, wodurch die Stärken beider Paradigmen effektiv integriert werden. Insbesondere nutzen wir das Vorwissen eines Video-Diffusionsmodells, um zunächst ein dualmodales Multi-View-Diffusionsmodell vorzutrainieren, das sowohl MV-orientierte als auch 3D-orientierte Generierungsmodi unterstützt. Um die Qualitätslücke bei der 3D-orientierten Generierung zu überbrücken, schlagen wir eine cross-modale Nachausbildungsdestillation vor, bei der die Verteilung vom konsistenten 3D-orientierten Modus auf den hochwertigen MV-orientierten Modus abgebildet wird. Dies verbessert nicht nur die visuelle Qualität bei Beibehaltung der 3D-Konsistenz, sondern reduziert auch die erforderlichen Denoising-Schritte für die Inferenz. Zudem schlagen wir eine Strategie vor, um während dieses Prozesses massenhaft Einzelbilder und Textprompts zu nutzen, um die Generalisierungsfähigkeit des Modells für Out-of-Distribution-Eingaben zu verbessern. Umfangreiche Experimente demonstrieren die Überlegenheit und Effizienz unserer Methode.
English
We propose FlashWorld, a generative model that produces 3D scenes from a
single image or text prompt in seconds, 10~100times faster than previous
works while possessing superior rendering quality. Our approach shifts from the
conventional multi-view-oriented (MV-oriented) paradigm, which generates
multi-view images for subsequent 3D reconstruction, to a 3D-oriented approach
where the model directly produces 3D Gaussian representations during multi-view
generation. While ensuring 3D consistency, 3D-oriented method typically suffers
poor visual quality. FlashWorld includes a dual-mode pre-training phase
followed by a cross-mode post-training phase, effectively integrating the
strengths of both paradigms. Specifically, leveraging the prior from a video
diffusion model, we first pre-train a dual-mode multi-view diffusion model,
which jointly supports MV-oriented and 3D-oriented generation modes. To bridge
the quality gap in 3D-oriented generation, we further propose a cross-mode
post-training distillation by matching distribution from consistent 3D-oriented
mode to high-quality MV-oriented mode. This not only enhances visual quality
while maintaining 3D consistency, but also reduces the required denoising steps
for inference. Also, we propose a strategy to leverage massive single-view
images and text prompts during this process to enhance the model's
generalization to out-of-distribution inputs. Extensive experiments demonstrate
the superiority and efficiency of our method.