WonderZoom: Multi-Skalige 3D-Weltgenerierung
WonderZoom: Multi-Scale 3D World Generation
December 9, 2025
papers.authors: Jin Cao, Hong-Xing Yu, Jiajun Wu
cs.AI
papers.abstract
Wir stellen WonderZoom vor, einen neuartigen Ansatz zur Erzeugung von 3D-Szenen mit Inhalten über mehrere räumliche Skalen hinweg aus einem einzelnen Bild. Bestehende 3D-Weltgenerierungsmodelle beschränken sich nach wie vor auf die Einzelskalen-Synthese und können keine kohärenten Szeneninhalte mit unterschiedlichen Detaillierungsgraden erzeugen. Die grundlegende Herausforderung ist das Fehlen einer skalensensitiven 3D-Darstellung, die in der Lage ist, Inhalte mit sehr unterschiedlichen räumlichen Größen zu generieren und darzustellen. WonderZoom adressiert dies durch zwei zentrale Innovationen: (1) skalierungsadaptive Gauß'sche Surfel für die Erzeugung und Echtzeitdarstellung von 3D-Szenen mit mehreren Skalen und (2) einen progressiven Detail-Synthesizer, der iterativ feinere 3D-Inhalte erzeugt. Unser Ansatz ermöglicht es Nutzern, in eine 3D-Region "hineinzuzoomen" und autoregressiv zuvor nicht vorhandene feine Details von Landschaften bis hin zu mikroskopischen Merkmalen zu synthetisieren. Experimente zeigen, dass WonderZoom state-of-the-art Video- und 3D-Modelle sowohl in Qualität als auch Übereinstimmung signifikant übertrifft und die Erschaffung von 3D-Welten mit mehreren Skalen aus einem einzelnen Bild ermöglicht. Wir zeigen Videoergebnisse und einen interaktiven Viewer der generierten 3D-Welten mit mehreren Skalen unter https://wonderzoom.github.io/.
English
We present WonderZoom, a novel approach to generating 3D scenes with contents across multiple spatial scales from a single image. Existing 3D world generation models remain limited to single-scale synthesis and cannot produce coherent scene contents at varying granularities. The fundamental challenge is the lack of a scale-aware 3D representation capable of generating and rendering content with largely different spatial sizes. WonderZoom addresses this through two key innovations: (1) scale-adaptive Gaussian surfels for generating and real-time rendering of multi-scale 3D scenes, and (2) a progressive detail synthesizer that iteratively generates finer-scale 3D contents. Our approach enables users to "zoom into" a 3D region and auto-regressively synthesize previously non-existent fine details from landscapes to microscopic features. Experiments demonstrate that WonderZoom significantly outperforms state-of-the-art video and 3D models in both quality and alignment, enabling multi-scale 3D world creation from a single image. We show video results and an interactive viewer of generated multi-scale 3D worlds in https://wonderzoom.github.io/