ChatPaper.aiChatPaper

FlashWorld:数秒で高品質な3Dシーンを生成する技術

FlashWorld: High-quality 3D Scene Generation within Seconds

October 15, 2025
著者: Xinyang Li, Tengfei Wang, Zixiao Gu, Shengchuan Zhang, Chunchao Guo, Liujuan Cao
cs.AI

要旨

本論文では、単一の画像またはテキストプロンプトから数秒で3Dシーンを生成する生成モデル「FlashWorld」を提案する。本手法は、従来のマルチビュー指向(MV指向)パラダイムから脱却し、マルチビュー生成中に直接3Dガウシアン表現を生成する3D指向アプローチを採用している。従来の3D指向手法は3D一貫性を保証する一方で視覚品質が低いという課題があった。FlashWorldは、デュアルモード事前学習フェーズとクロスモード事後学習フェーズを組み合わせることで、両パラダイムの長所を効果的に統合している。具体的には、ビデオ拡散モデルの事前知識を活用し、MV指向と3D指向の生成モードを同時にサポートするデュアルモードマルチビュー拡散モデルを事前学習する。さらに、3D指向生成の品質ギャップを埋めるため、一貫性のある3D指向モードから高品質なMV指向モードへの分布マッチングによるクロスモード事後学習蒸留を提案する。これにより、3D一貫性を維持しつつ視覚品質を向上させるとともに、推論に必要なノイズ除去ステップを削減する。また、このプロセス中に大量の単一ビュー画像とテキストプロンプトを活用することで、モデルの分布外入力に対する汎化性能を向上させる戦略を提案する。広範な実験により、本手法の優位性と効率性が実証された。
English
We propose FlashWorld, a generative model that produces 3D scenes from a single image or text prompt in seconds, 10~100times faster than previous works while possessing superior rendering quality. Our approach shifts from the conventional multi-view-oriented (MV-oriented) paradigm, which generates multi-view images for subsequent 3D reconstruction, to a 3D-oriented approach where the model directly produces 3D Gaussian representations during multi-view generation. While ensuring 3D consistency, 3D-oriented method typically suffers poor visual quality. FlashWorld includes a dual-mode pre-training phase followed by a cross-mode post-training phase, effectively integrating the strengths of both paradigms. Specifically, leveraging the prior from a video diffusion model, we first pre-train a dual-mode multi-view diffusion model, which jointly supports MV-oriented and 3D-oriented generation modes. To bridge the quality gap in 3D-oriented generation, we further propose a cross-mode post-training distillation by matching distribution from consistent 3D-oriented mode to high-quality MV-oriented mode. This not only enhances visual quality while maintaining 3D consistency, but also reduces the required denoising steps for inference. Also, we propose a strategy to leverage massive single-view images and text prompts during this process to enhance the model's generalization to out-of-distribution inputs. Extensive experiments demonstrate the superiority and efficiency of our method.
PDF672October 16, 2025