FlashWorld: 초고속 고품질 3D 장면 생성 기술
FlashWorld: High-quality 3D Scene Generation within Seconds
October 15, 2025
저자: Xinyang Li, Tengfei Wang, Zixiao Gu, Shengchuan Zhang, Chunchao Guo, Liujuan Cao
cs.AI
초록
우리는 단일 이미지 또는 텍스트 프롬프트로부터 초 단위로 3D 장면을 생성하는 생성 모델인 FlashWorld를 제안합니다. 이 모델은 기존 연구 대비 10~100배 빠른 속도를 자랑하면서도 우수한 렌더링 품질을 유지합니다. 우리의 접근 방식은 기존의 다중 뷰 중심(MV-oriented) 패러다임, 즉 다중 뷰 이미지를 생성한 후 3D 재구성을 수행하는 방식에서 벗어나, 모델이 다중 뷰 생성 과정에서 직접 3D 가우시안 표현을 생성하는 3D 중심(3D-oriented) 접근법으로 전환합니다. 3D 일관성을 보장하면서도, 3D 중심 방식은 일반적으로 시각적 품질이 떨어지는 문제가 있습니다. FlashWorld는 이중 모드 사전 학습 단계와 교차 모드 사후 학습 단계를 포함하여 두 패러다임의 장점을 효과적으로 통합합니다. 구체적으로, 비디오 확산 모델의 사전 지식을 활용하여 먼저 MV 중심 및 3D 중심 생성 모드를 모두 지원하는 이중 모드 다중 뷰 확산 모델을 사전 학습합니다. 3D 중심 생성의 품질 격차를 해소하기 위해, 우리는 일관된 3D 중심 모드에서 고품질 MV 중심 모드로의 분포 매칭을 통한 교차 모드 사후 학습 증류를 추가로 제안합니다. 이는 3D 일관성을 유지하면서 시각적 품질을 향상시킬 뿐만 아니라, 추론에 필요한 노이즈 제거 단계를 줄이는 효과도 있습니다. 또한, 이 과정에서 대량의 단일 뷰 이미지와 텍스트 프롬프트를 활용하여 모델의 분포 외 입력에 대한 일반화 능력을 강화하는 전략을 제안합니다. 광범위한 실험을 통해 우리 방법의 우수성과 효율성을 입증합니다.
English
We propose FlashWorld, a generative model that produces 3D scenes from a
single image or text prompt in seconds, 10~100times faster than previous
works while possessing superior rendering quality. Our approach shifts from the
conventional multi-view-oriented (MV-oriented) paradigm, which generates
multi-view images for subsequent 3D reconstruction, to a 3D-oriented approach
where the model directly produces 3D Gaussian representations during multi-view
generation. While ensuring 3D consistency, 3D-oriented method typically suffers
poor visual quality. FlashWorld includes a dual-mode pre-training phase
followed by a cross-mode post-training phase, effectively integrating the
strengths of both paradigms. Specifically, leveraging the prior from a video
diffusion model, we first pre-train a dual-mode multi-view diffusion model,
which jointly supports MV-oriented and 3D-oriented generation modes. To bridge
the quality gap in 3D-oriented generation, we further propose a cross-mode
post-training distillation by matching distribution from consistent 3D-oriented
mode to high-quality MV-oriented mode. This not only enhances visual quality
while maintaining 3D consistency, but also reduces the required denoising steps
for inference. Also, we propose a strategy to leverage massive single-view
images and text prompts during this process to enhance the model's
generalization to out-of-distribution inputs. Extensive experiments demonstrate
the superiority and efficiency of our method.