FlashWorld: Generazione di scene 3D di alta qualità in pochi secondi
FlashWorld: High-quality 3D Scene Generation within Seconds
October 15, 2025
Autori: Xinyang Li, Tengfei Wang, Zixiao Gu, Shengchuan Zhang, Chunchao Guo, Liujuan Cao
cs.AI
Abstract
Proponiamo FlashWorld, un modello generativo che produce scene 3D da una singola immagine o prompt testuale in pochi secondi, da 10 a 100 volte più veloce rispetto ai lavori precedenti, mantenendo una qualità di rendering superiore. Il nostro approccio si discosta dal paradigma convenzionale orientato alle viste multiple (MV-oriented), che genera immagini multi-vista per la successiva ricostruzione 3D, a favore di un approccio orientato al 3D, in cui il modello produce direttamente rappresentazioni 3D basate su Gaussiane durante la generazione multi-vista. Sebbene garantisca la coerenza 3D, il metodo orientato al 3D soffre tipicamente di una qualità visiva inferiore. FlashWorld include una fase di pre-addestramento dual-mode seguita da una fase di post-addestramento cross-mode, integrando efficacemente i punti di forza di entrambi i paradigmi. Nello specifico, sfruttando il prior di un modello di diffusione video, pre-addestriamo un modello di diffusione multi-vista dual-mode, che supporta congiuntamente le modalità di generazione MV-oriented e 3D-oriented. Per colmare il divario di qualità nella generazione orientata al 3D, proponiamo ulteriormente una distillazione post-addestramento cross-mode, allineando la distribuzione dalla modalità 3D-oriented coerente alla modalità MV-oriented ad alta qualità. Ciò non solo migliora la qualità visiva mantenendo la coerenza 3D, ma riduce anche i passaggi di denoising necessari per l'inferenza. Inoltre, proponiamo una strategia per sfruttare un vasto numero di immagini a vista singola e prompt testuali durante questo processo, migliorando la generalizzazione del modello per input fuori distribuzione. Esperimenti estensivi dimostrano la superiorità e l'efficienza del nostro metodo.
English
We propose FlashWorld, a generative model that produces 3D scenes from a
single image or text prompt in seconds, 10~100times faster than previous
works while possessing superior rendering quality. Our approach shifts from the
conventional multi-view-oriented (MV-oriented) paradigm, which generates
multi-view images for subsequent 3D reconstruction, to a 3D-oriented approach
where the model directly produces 3D Gaussian representations during multi-view
generation. While ensuring 3D consistency, 3D-oriented method typically suffers
poor visual quality. FlashWorld includes a dual-mode pre-training phase
followed by a cross-mode post-training phase, effectively integrating the
strengths of both paradigms. Specifically, leveraging the prior from a video
diffusion model, we first pre-train a dual-mode multi-view diffusion model,
which jointly supports MV-oriented and 3D-oriented generation modes. To bridge
the quality gap in 3D-oriented generation, we further propose a cross-mode
post-training distillation by matching distribution from consistent 3D-oriented
mode to high-quality MV-oriented mode. This not only enhances visual quality
while maintaining 3D consistency, but also reduces the required denoising steps
for inference. Also, we propose a strategy to leverage massive single-view
images and text prompts during this process to enhance the model's
generalization to out-of-distribution inputs. Extensive experiments demonstrate
the superiority and efficiency of our method.