WonderZoom : Génération de mondes 3D à échelles multiples
WonderZoom: Multi-Scale 3D World Generation
December 9, 2025
papers.authors: Jin Cao, Hong-Xing Yu, Jiajun Wu
cs.AI
papers.abstract
Nous présentons WonderZoom, une nouvelle approche pour générer des scènes 3D avec un contenu couvrant de multiples échelles spatiales à partir d'une seule image. Les modèles de génération de mondes 3D existants se limitent à une synthèse à échelle unique et ne peuvent pas produire un contenu de scène cohérent à différents niveaux de granularité. Le défi fondamental est l'absence d'une représentation 3D sensible à l'échelle, capable de générer et de restituer un contenu avec des tailles spatiales très différentes. WonderZoom résout ce problème grâce à deux innovations clés : (1) des surfels gaussiens adaptatifs à l'échelle pour la génération et le rendu en temps réel de scènes 3D multi-échelles, et (2) un synthétiseur de détails progressif qui génère itérativement un contenu 3D à des échelles plus fines. Notre approche permet aux utilisateurs de « zoomer » sur une région 3D et de synthétiser de manière autorégressive des détails fins auparavant inexistants, allant des paysages aux caractéristiques microscopiques. Les expériences démontrent que WonderZoom surpasse significativement les modèles vidéo et 3D de l'état de l'art en termes de qualité et d'alignement, permettant la création de mondes 3D multi-échelles à partir d'une seule image. Nous présentons des résultats vidéo et une visionneuse interactive des mondes 3D multi-échelles générés sur https://wonderzoom.github.io/.
English
We present WonderZoom, a novel approach to generating 3D scenes with contents across multiple spatial scales from a single image. Existing 3D world generation models remain limited to single-scale synthesis and cannot produce coherent scene contents at varying granularities. The fundamental challenge is the lack of a scale-aware 3D representation capable of generating and rendering content with largely different spatial sizes. WonderZoom addresses this through two key innovations: (1) scale-adaptive Gaussian surfels for generating and real-time rendering of multi-scale 3D scenes, and (2) a progressive detail synthesizer that iteratively generates finer-scale 3D contents. Our approach enables users to "zoom into" a 3D region and auto-regressively synthesize previously non-existent fine details from landscapes to microscopic features. Experiments demonstrate that WonderZoom significantly outperforms state-of-the-art video and 3D models in both quality and alignment, enabling multi-scale 3D world creation from a single image. We show video results and an interactive viewer of generated multi-scale 3D worlds in https://wonderzoom.github.io/