WorldGrow: Erzeugung unendlicher 3D-Welten
WorldGrow: Generating Infinite 3D World
October 24, 2025
papers.authors: Sikuang Li, Chen Yang, Jiemin Fang, Taoran Yi, Jia Lu, Jiazhong Cen, Lingxi Xie, Wei Shen, Qi Tian
cs.AI
papers.abstract
Wir stellen uns der Herausforderung, unendlich erweiterbare 3D-Welten zu generieren – große, kontinuierliche Umgebungen mit kohärenter Geometrie und realistischer Erscheinung. Bestehende Methoden stehen vor zentralen Problemen: 2D-Lifting-Ansätze leiden unter geometrischen und Erscheinungs-Inkonsistenzen zwischen verschiedenen Blickwinkeln, 3D-implizite Repräsentationen sind schwer zu skalieren, und aktuelle 3D-Foundation-Modelle sind größtenteils objektzentriert, was ihre Anwendbarkeit für szenenbezogene Generierung einschränkt. Unser zentraler Ansatz ist die Nutzung starker Generierungs-Priors aus vortrainierten 3D-Modellen für die strukturierte Szenenblock-Generierung. Zu diesem Zweck präsentieren wir WorldGrow, ein hierarchisches Framework für die unbegrenzte 3D-Szenensynthese. Unsere Methode umfasst drei Kernkomponenten: (1) eine Data-Curation-Pipeline zur Extraktion hochwertiger Szenenblöcke für das Training, die 3D-strukturierte latente Repräsentationen für die Szenengenerierung geeignet macht; (2) einen 3D-Block-Inpainting-Mechanismus, der kontextbewusste Szenenerweiterung ermöglicht; und (3) eine Coarse-to-fine-Generierungsstrategie, die sowohl globale Layout-Plausibilität als auch lokale geometrische/texturelle Treue sicherstellt. Auswertungen auf dem großangelegten 3D-FRONT-Datensatz zeigen, dass WorldGrow state-of-the-art Leistung in geometrischer Rekonstruktion erreicht und dabei einzigartig unendliche Szenengenerierung mit fotorealistischen und strukturell konsistenten Ergebnissen unterstützt. Diese Ergebnisse unterstreichen seine Fähigkeit zur Konstruktion großmaßstäblicher virtueller Umgebungen und sein Potenzial für die Entwicklung zukünftiger Weltmodelle.
English
We tackle the challenge of generating the infinitely extendable 3D world --
large, continuous environments with coherent geometry and realistic appearance.
Existing methods face key challenges: 2D-lifting approaches suffer from
geometric and appearance inconsistencies across views, 3D implicit
representations are hard to scale up, and current 3D foundation models are
mostly object-centric, limiting their applicability to scene-level generation.
Our key insight is leveraging strong generation priors from pre-trained 3D
models for structured scene block generation. To this end, we propose
WorldGrow, a hierarchical framework for unbounded 3D scene synthesis. Our
method features three core components: (1) a data curation pipeline that
extracts high-quality scene blocks for training, making the 3D structured
latent representations suitable for scene generation; (2) a 3D block inpainting
mechanism that enables context-aware scene extension; and (3) a coarse-to-fine
generation strategy that ensures both global layout plausibility and local
geometric/textural fidelity. Evaluated on the large-scale 3D-FRONT dataset,
WorldGrow achieves SOTA performance in geometry reconstruction, while uniquely
supporting infinite scene generation with photorealistic and structurally
consistent outputs. These results highlight its capability for constructing
large-scale virtual environments and potential for building future world
models.