WorldGrow: 無限の3Dワールド生成
WorldGrow: Generating Infinite 3D World
October 24, 2025
著者: Sikuang Li, Chen Yang, Jiemin Fang, Taoran Yi, Jia Lu, Jiazhong Cen, Lingxi Xie, Wei Shen, Qi Tian
cs.AI
要旨
我々は、無限に拡張可能な3D世界――大規模で連続的かつ一貫した幾何学構造と写実的な外観を備えた環境――の生成という課題に取り組む。既存手法は重大な課題に直面している:2Dリフティングアプローチは視点間の幾何学的不整合や外観の不一致に悩み、3D暗黙的表現はスケーラビリティに難があり、現在の3D基盤モデルは主にオブジェクト中心であるためシーンレベル生成への適用が限られる。我々の重要な洞察は、構造化されたシーンブロック生成において事前学習済み3Dモデルの強力な生成事前確率を活用する点にある。この目的で、我々は階層的フレームワークであるWorldGrowを提案する。本手法は3つの核心コンポーネントを特徴とする:(1) 高品質なシーンブロックを抽出するデータキュレーションパイプラインにより、3D構造化潜在表現をシーン生成に適したものとする、(2) 文脈を考慮したシーン拡張を可能にする3Dブロックインペインティング機構、(3) 大域的なレイアウトの妥当性と局所的な幾何学/テクスチャの忠実度を両立する段階的生成戦略。大規模3D-FRONTデータセットによる評価では、WorldGrowは幾何学再構築においてSOTA性能を達成し、写実的かつ構造的一貫性のある出力による無限シーン生成を独自に実現する。これらの結果は、大規模仮想環境構築における本手法の有効性と、将来の世界モデル構築への可能性を示唆している。
English
We tackle the challenge of generating the infinitely extendable 3D world --
large, continuous environments with coherent geometry and realistic appearance.
Existing methods face key challenges: 2D-lifting approaches suffer from
geometric and appearance inconsistencies across views, 3D implicit
representations are hard to scale up, and current 3D foundation models are
mostly object-centric, limiting their applicability to scene-level generation.
Our key insight is leveraging strong generation priors from pre-trained 3D
models for structured scene block generation. To this end, we propose
WorldGrow, a hierarchical framework for unbounded 3D scene synthesis. Our
method features three core components: (1) a data curation pipeline that
extracts high-quality scene blocks for training, making the 3D structured
latent representations suitable for scene generation; (2) a 3D block inpainting
mechanism that enables context-aware scene extension; and (3) a coarse-to-fine
generation strategy that ensures both global layout plausibility and local
geometric/textural fidelity. Evaluated on the large-scale 3D-FRONT dataset,
WorldGrow achieves SOTA performance in geometry reconstruction, while uniquely
supporting infinite scene generation with photorealistic and structurally
consistent outputs. These results highlight its capability for constructing
large-scale virtual environments and potential for building future world
models.