Extend3D: タウンスケールの3D生成
Extend3D: Town-Scale 3D Generation
March 31, 2026
著者: Seungwoo Yoon, Jinmo Kim, Jaesik Park
cs.AI
要旨
本論文では、オブジェクト中心の3D生成モデルを基盤とし、単一画像からの3Dシーン生成のためのトレーニング不要パイプラインであるExtend3Dを提案する。広大なシーンを表現する際のオブジェクト中心モデルにおける固定サイズ潜在空間の限界を克服するため、x方向およびy方向に潜在空間を拡張する。次に、拡張された潜在空間をオーバーラップするパッチに分割し、各パッチにオブジェクト中心の3D生成モデルを適用し、各タイムステップでそれらを結合する。画像条件付けを伴うパッチ単位の3D生成では、画像パッチと潜在パッチの厳密な空間的整合性が要求されるため、単眼深度推定器から得た点群事前分布を用いてシーンを初期化し、SDEditを通じてオクルージョン領域を反復的に洗練する。我々は、3D構造の不完全性を3D洗練プロセスにおけるノイズとして扱うことで、我々が「アンダーノイジング」と呼ぶ概念による3D補完が可能となることを発見した。さらに、サブシーン生成におけるオブジェクト中心モデルの最適性不足に対処するため、デノイジング中に拡張潜在を最適化し、デノイジング軌道がサブシーン動態と整合することを保証する。この目的のために、改善された幾何構造とテクスチャの忠実性のための3D認識最適化目標を導入する。本手法が従来手法よりも優れた結果をもたらすことを、人間による選好評価と定量的実験により実証する。
English
In this paper, we propose Extend3D, a training-free pipeline for 3D scene generation from a single image, built upon an object-centric 3D generative model. To overcome the limitations of fixed-size latent spaces in object-centric models for representing wide scenes, we extend the latent space in the x and y directions. Then, by dividing the extended latent space into overlapping patches, we apply the object-centric 3D generative model to each patch and couple them at each time step. Since patch-wise 3D generation with image conditioning requires strict spatial alignment between image and latent patches, we initialize the scene using a point cloud prior from a monocular depth estimator and iteratively refine occluded regions through SDEdit. We discovered that treating the incompleteness of 3D structure as noise during 3D refinement enables 3D completion via a concept, which we term under-noising. Furthermore, to address the sub-optimality of object-centric models for sub-scene generation, we optimize the extended latent during denoising, ensuring that the denoising trajectories remain consistent with the sub-scene dynamics. To this end, we introduce 3D-aware optimization objectives for improved geometric structure and texture fidelity. We demonstrate that our method yields better results than prior methods, as evidenced by human preference and quantitative experiments.