WonderZoom: Многомасштабная генерация 3D-мира
WonderZoom: Multi-Scale 3D World Generation
December 9, 2025
Авторы: Jin Cao, Hong-Xing Yu, Jiajun Wu
cs.AI
Аннотация
Мы представляем WonderZoom — новый подход к генерации 3D-сцен с контентом на множественных пространственных масштабах из одного изображения. Существующие модели генерации 3D-миров остаются ограниченными синтезом в едином масштабе и не способны создавать согласованное содержимое сцен на различных уровнях детализации. Ключевая проблема заключается в отсутствии масштабно-адаптивного 3D-представления, способного генерировать и визуализировать объекты с сильно различающимися пространственными размерами. WonderZoom решает эту задачу с помощью двух основных инноваций: (1) масштабно-адаптивных гауссовских серфелов для генерации и реального времени рендеринга многомасштабных 3D-сцен, и (2) прогрессивного синтезатора деталей, который итеративно генерирует 3D-контент на более тонких масштабах. Наш подход позволяет пользователям «приближаться» к области 3D-сцены и авторегрессивно синтезировать ранее отсутствующие детали — от ландшафтов до микроскопических особенностей. Эксперименты демонстрируют, что WonderZoom существенно превосходит современные модели генерации видео и 3D как по качеству, так и по соответствию исходному изображению, обеспечивая создание многомасштабных 3D-миров из одного изображения. Видео-результаты и интерактивный просмотр сгенерированных многомасштабных 3D-миров доступны по адресу https://wonderzoom.github.io/.
English
We present WonderZoom, a novel approach to generating 3D scenes with contents across multiple spatial scales from a single image. Existing 3D world generation models remain limited to single-scale synthesis and cannot produce coherent scene contents at varying granularities. The fundamental challenge is the lack of a scale-aware 3D representation capable of generating and rendering content with largely different spatial sizes. WonderZoom addresses this through two key innovations: (1) scale-adaptive Gaussian surfels for generating and real-time rendering of multi-scale 3D scenes, and (2) a progressive detail synthesizer that iteratively generates finer-scale 3D contents. Our approach enables users to "zoom into" a 3D region and auto-regressively synthesize previously non-existent fine details from landscapes to microscopic features. Experiments demonstrate that WonderZoom significantly outperforms state-of-the-art video and 3D models in both quality and alignment, enabling multi-scale 3D world creation from a single image. We show video results and an interactive viewer of generated multi-scale 3D worlds in https://wonderzoom.github.io/