WorldGrow: Erzeugung unendlicher 3D-Welten

papers.abstract

Wir stellen uns der Herausforderung, unendlich erweiterbare 3D-Welten zu generieren – große, kontinuierliche Umgebungen mit kohärenter Geometrie und realistischer Erscheinung. Bestehende Methoden stehen vor zentralen Problemen: 2D-Lifting-Ansätze leiden unter geometrischen und Erscheinungs-Inkonsistenzen zwischen verschiedenen Blickwinkeln, 3D-implizite Repräsentationen sind schwer zu skalieren, und aktuelle 3D-Foundation-Modelle sind größtenteils objektzentriert, was ihre Anwendbarkeit für szenenbezogene Generierung einschränkt. Unser zentraler Ansatz ist die Nutzung starker Generierungs-Priors aus vortrainierten 3D-Modellen für die strukturierte Szenenblock-Generierung. Zu diesem Zweck präsentieren wir WorldGrow, ein hierarchisches Framework für die unbegrenzte 3D-Szenensynthese. Unsere Methode umfasst drei Kernkomponenten: (1) eine Data-Curation-Pipeline zur Extraktion hochwertiger Szenenblöcke für das Training, die 3D-strukturierte latente Repräsentationen für die Szenengenerierung geeignet macht; (2) einen 3D-Block-Inpainting-Mechanismus, der kontextbewusste Szenenerweiterung ermöglicht; und (3) eine Coarse-to-fine-Generierungsstrategie, die sowohl globale Layout-Plausibilität als auch lokale geometrische/texturelle Treue sicherstellt. Auswertungen auf dem großangelegten 3D-FRONT-Datensatz zeigen, dass WorldGrow state-of-the-art Leistung in geometrischer Rekonstruktion erreicht und dabei einzigartig unendliche Szenengenerierung mit fotorealistischen und strukturell konsistenten Ergebnissen unterstützt. Diese Ergebnisse unterstreichen seine Fähigkeit zur Konstruktion großmaßstäblicher virtueller Umgebungen und sein Potenzial für die Entwicklung zukünftiger Weltmodelle.

English

We tackle the challenge of generating the infinitely extendable 3D world -- large, continuous environments with coherent geometry and realistic appearance. Existing methods face key challenges: 2D-lifting approaches suffer from geometric and appearance inconsistencies across views, 3D implicit representations are hard to scale up, and current 3D foundation models are mostly object-centric, limiting their applicability to scene-level generation. Our key insight is leveraging strong generation priors from pre-trained 3D models for structured scene block generation. To this end, we propose WorldGrow, a hierarchical framework for unbounded 3D scene synthesis. Our method features three core components: (1) a data curation pipeline that extracts high-quality scene blocks for training, making the 3D structured latent representations suitable for scene generation; (2) a 3D block inpainting mechanism that enables context-aware scene extension; and (3) a coarse-to-fine generation strategy that ensures both global layout plausibility and local geometric/textural fidelity. Evaluated on the large-scale 3D-FRONT dataset, WorldGrow achieves SOTA performance in geometry reconstruction, while uniquely supporting infinite scene generation with photorealistic and structurally consistent outputs. These results highlight its capability for constructing large-scale virtual environments and potential for building future world models.

WorldGrow: Erzeugung unendlicher 3D-Welten

WorldGrow: Generating Infinite 3D World

papers.abstract

Support