WonderZoom: Generación de Mundos 3D a Múltiples Escalas
WonderZoom: Multi-Scale 3D World Generation
December 9, 2025
Autores: Jin Cao, Hong-Xing Yu, Jiajun Wu
cs.AI
Resumen
Presentamos WonderZoom, un enfoque novedoso para generar escenas 3D con contenido a múltiples escalas espaciales a partir de una sola imagen. Los modelos existentes de generación de mundos 3D siguen limitados a la síntesis a escala única y no pueden producir contenidos coherentes en la escena con distintos niveles de granularidad. El desafío fundamental es la falta de una representación 3D consciente de la escala capaz de generar y renderizar contenido con tamaños espaciales muy diferentes. WonderZoom aborda este problema mediante dos innovaciones clave: (1) *surfels* Gaussianos adaptativos a la escala para la generación y renderizado en tiempo real de escenas 3D multi-escala, y (2) un sintetizador de detalles progresivo que genera iterativamente contenidos 3D a escalas más finas. Nuestro enfoque permite a los usuarios "acercarse" a una región 3D y sintetizar de forma auto-regresiva detalles finos previamente inexistentes, desde paisajes hasta características microscópicas. Los experimentos demuestran que WonderZoom supera significativamente a los modelos de vanguardia de video y 3D tanto en calidad como en alineación, permitiendo la creación de mundos 3D multi-escala a partir de una sola imagen. Mostramos resultados en video y un visor interactivo de los mundos 3D multi-escala generados en https://wonderzoom.github.io/
English
We present WonderZoom, a novel approach to generating 3D scenes with contents across multiple spatial scales from a single image. Existing 3D world generation models remain limited to single-scale synthesis and cannot produce coherent scene contents at varying granularities. The fundamental challenge is the lack of a scale-aware 3D representation capable of generating and rendering content with largely different spatial sizes. WonderZoom addresses this through two key innovations: (1) scale-adaptive Gaussian surfels for generating and real-time rendering of multi-scale 3D scenes, and (2) a progressive detail synthesizer that iteratively generates finer-scale 3D contents. Our approach enables users to "zoom into" a 3D region and auto-regressively synthesize previously non-existent fine details from landscapes to microscopic features. Experiments demonstrate that WonderZoom significantly outperforms state-of-the-art video and 3D models in both quality and alignment, enabling multi-scale 3D world creation from a single image. We show video results and an interactive viewer of generated multi-scale 3D worlds in https://wonderzoom.github.io/