WonderZoom: Generazione di Mondi 3D su Multi-Scala
WonderZoom: Multi-Scale 3D World Generation
December 9, 2025
Autori: Jin Cao, Hong-Xing Yu, Jiajun Wu
cs.AI
Abstract
Presentiamo WonderZoom, un approccio innovativo per generare scene 3D con contenuti su scale spaziali multiple a partire da una singola immagine. I modelli di generazione di mondi 3D esistenti rimangono limitati alla sintesi su scala singola e non possono produrre contenuti di scena coerenti a diversi livelli di granularità. La sfida fondamentale è l'assenza di una rappresentazione 3D consapevole della scala, capace di generare e renderizzare contenuti con dimensioni spaziali molto diverse. WonderZoom affronta questo problema attraverso due innovazioni chiave: (1) surfel gaussiani adattivi alla scala per la generazione e il rendering in tempo reale di scene 3D multi-scala, e (2) un sintetizzatore di dettagli progressivo che genera iterativamente contenuti 3D a scale più fini. Il nostro approccio consente agli utenti di "zoomare" su una regione 3D e sintetizzare in modo autoregressivo dettagli fini precedentemente inesistenti, dai paesaggi fino alle caratteristiche microscopiche. Gli esperimenti dimostrano che WonderZoom supera significamente i modelli all'avanguardia per video e 3D sia in qualità che in allineamento, abilitando la creazione di mondi 3D multi-scala da una singola immagine. Mostriamo risultati video e un visualizzatore interattivo dei mondi 3D multi-scala generati su https://wonderzoom.github.io/
English
We present WonderZoom, a novel approach to generating 3D scenes with contents across multiple spatial scales from a single image. Existing 3D world generation models remain limited to single-scale synthesis and cannot produce coherent scene contents at varying granularities. The fundamental challenge is the lack of a scale-aware 3D representation capable of generating and rendering content with largely different spatial sizes. WonderZoom addresses this through two key innovations: (1) scale-adaptive Gaussian surfels for generating and real-time rendering of multi-scale 3D scenes, and (2) a progressive detail synthesizer that iteratively generates finer-scale 3D contents. Our approach enables users to "zoom into" a 3D region and auto-regressively synthesize previously non-existent fine details from landscapes to microscopic features. Experiments demonstrate that WonderZoom significantly outperforms state-of-the-art video and 3D models in both quality and alignment, enabling multi-scale 3D world creation from a single image. We show video results and an interactive viewer of generated multi-scale 3D worlds in https://wonderzoom.github.io/