ChatPaper.aiChatPaper

FlashWorld: Hoogwaardige 3D-scènegeneratie binnen enkele seconden

FlashWorld: High-quality 3D Scene Generation within Seconds

October 15, 2025
Auteurs: Xinyang Li, Tengfei Wang, Zixiao Gu, Shengchuan Zhang, Chunchao Guo, Liujuan Cao
cs.AI

Samenvatting

Wij presenteren FlashWorld, een generatief model dat 3D-scènes produceert vanuit een enkele afbeelding of tekstprompt in seconden, 10~100 keer sneller dan eerdere werken, terwijl het superieure renderkwaliteit bezit. Onze aanpak verschuift van het conventionele multi-view-georiënteerde (MV-georiënteerde) paradigma, dat multi-view-afbeeldingen genereert voor latere 3D-reconstructie, naar een 3D-georiënteerde aanpak waarbij het model direct 3D Gaussische representaties produceert tijdens multi-view-generatie. Hoewel de 3D-georiënteerde methode typisch lijdt onder slechte visuele kwaliteit, zorgt FlashWorld voor 3D-consistentie. FlashWorld omvat een dual-mode pre-trainingsfase gevolgd door een cross-mode post-trainingsfase, waardoor de sterke punten van beide paradigma's effectief worden geïntegreerd. Specifiek maken we gebruik van de prior van een videodiffusiemodel om eerst een dual-mode multi-view diffusiemodel te pre-trainen, dat zowel MV-georiënteerde als 3D-georiënteerde generatiemodi ondersteunt. Om de kwaliteitskloof in 3D-georiënteerde generatie te overbruggen, stellen we verder een cross-mode post-trainingsdistillatie voor door de distributie van de consistente 3D-georiënteerde modus af te stemmen op de hoogwaardige MV-georiënteerde modus. Dit verbetert niet alleen de visuele kwaliteit terwijl 3D-consistentie behouden blijft, maar vermindert ook het benodigde aantal denoisestappen voor inferentie. Bovendien stellen we een strategie voor om tijdens dit proces massale hoeveelheden single-view afbeeldingen en tekstprompts te benutten om de generalisatie van het model naar out-of-distribution inputs te verbeteren. Uitgebreide experimenten demonstreren de superioriteit en efficiëntie van onze methode.
English
We propose FlashWorld, a generative model that produces 3D scenes from a single image or text prompt in seconds, 10~100times faster than previous works while possessing superior rendering quality. Our approach shifts from the conventional multi-view-oriented (MV-oriented) paradigm, which generates multi-view images for subsequent 3D reconstruction, to a 3D-oriented approach where the model directly produces 3D Gaussian representations during multi-view generation. While ensuring 3D consistency, 3D-oriented method typically suffers poor visual quality. FlashWorld includes a dual-mode pre-training phase followed by a cross-mode post-training phase, effectively integrating the strengths of both paradigms. Specifically, leveraging the prior from a video diffusion model, we first pre-train a dual-mode multi-view diffusion model, which jointly supports MV-oriented and 3D-oriented generation modes. To bridge the quality gap in 3D-oriented generation, we further propose a cross-mode post-training distillation by matching distribution from consistent 3D-oriented mode to high-quality MV-oriented mode. This not only enhances visual quality while maintaining 3D consistency, but also reduces the required denoising steps for inference. Also, we propose a strategy to leverage massive single-view images and text prompts during this process to enhance the model's generalization to out-of-distribution inputs. Extensive experiments demonstrate the superiority and efficiency of our method.
PDF672October 16, 2025