**WonderZoom: 멀티스케일 3D 월드 생성**
WonderZoom: Multi-Scale 3D World Generation
December 9, 2025
저자: Jin Cao, Hong-Xing Yu, Jiajun Wu
cs.AI
초록
본 논문에서는 단일 이미지로부터 다중 공간 규모에 걸친 콘텐츠를 갖는 3D 장면을 생성하는 새로운 접근법인 WonderZoom을 제안합니다. 기존 3D 세계 생성 모델은 단일 규모 합성에 한정되어 있으며, 다양한 세부 수준에서 일관된 장면 콘텐츠를 생성하지 못합니다. 근본적인难题는 크게 다른 공간 크기를 가진 콘텐츠를 생성 및 렌더링할 수 있는 규모 인식 3D 표현의 부재입니다. WonderZoom은 두 가지 핵심 혁신을 통해 이 문제를 해결합니다: (1) 다중 규모 3D 장면 생성 및 실시간 렌더링을 위한 규모 적응형 가우시안 서펠, (2) 더 미세한 규모의 3D 콘텐츠를 반복적으로 생성하는 점진적 디테일 합성기. 본 접근법을 통해 사용자는 3D 영역으로 "확대"하고, 풍경에서 미시적 특성에 이르기까지 기존에 존재하지 않았던 미세한 디테일을 자기회귀적으로 합성할 수 있습니다. 실험 결과, WonderZoom이 화질과 정렬 측면에서 최첨단 비디오 및 3D 모델을 크게 능가하며, 단일 이미지로부터 다중 규모 3D 세계 생성이 가능함을 입증합니다. 생성된 다중 규모 3D 세계의 비디오 결과 및 인터랙티브 뷰어는 https://wonderzoom.github.io/에서 확인할 수 있습니다.
English
We present WonderZoom, a novel approach to generating 3D scenes with contents across multiple spatial scales from a single image. Existing 3D world generation models remain limited to single-scale synthesis and cannot produce coherent scene contents at varying granularities. The fundamental challenge is the lack of a scale-aware 3D representation capable of generating and rendering content with largely different spatial sizes. WonderZoom addresses this through two key innovations: (1) scale-adaptive Gaussian surfels for generating and real-time rendering of multi-scale 3D scenes, and (2) a progressive detail synthesizer that iteratively generates finer-scale 3D contents. Our approach enables users to "zoom into" a 3D region and auto-regressively synthesize previously non-existent fine details from landscapes to microscopic features. Experiments demonstrate that WonderZoom significantly outperforms state-of-the-art video and 3D models in both quality and alignment, enabling multi-scale 3D world creation from a single image. We show video results and an interactive viewer of generated multi-scale 3D worlds in https://wonderzoom.github.io/