ワールドトレーシング:可視を超えた生成ピクセル整列幾何学
World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible
June 11, 2026
著者: Hao Zhang, Mohamed El Banani, Jen-Hao Cheng, Paul Zhang, Yi Hua, Ben Mildenhall, Christoph Lassner, Narendra Ahuja, Gengshan Yang
cs.AI
要旨
Image-to-3D手法は、しばしば忠実性と完全性の間でトレードオフを生じる。すなわち、深度推定器は入力画素に固定されるが可視表面で停止する一方、画像から3Dモデルを生成する手法は完全な形状を生成するものの、入力との位置ずれが生じることが多い。本稿では、World Tracingを導入する。これは生成型の画素整合幾何表現であり、観測された画素に整合する3D点を予測すると同時に、可視表面を超えた幾何形状を完成させる。各入力画素に対して、World Tracingはカメラ空間における順序付けられた3D点のスタックを予測し、第1層は可視表面を、後続の層はオクルージョンされた表面との前後方向の交差を表す。この表現を、ワールドトレーシング拡散トランスフォーマーWT-DiTにより具現化する。WT-DiTは複数の幾何層を分離されたデノイジングトークンとして扱い、分解注意と大域的注意を組み合わせて結合する。WT-DiTは画素空間フローマッチングと、可視表面の再構成とオクルージョン幾何の生成のバランスを取る混合ノイズスケジュールで学習される。World Tracingは、物体・シーン・動的ベンチマークにおいて可視表面の再構成と完全な幾何生成の両方で優れた性能を達成し、深度予測器や画像-to-3D生成器を凌駕する。また、2D-to-3D対応を維持するため、テキスト駆動の3Dシーン編集、幾何条件付けによる新規視点動画合成、テクスチャメッシュ生成器との学習不要の統合を可能にする。
English
Image-to-3D methods often trade off faithfulness and completeness: depth estimators are anchored to input pixels but stop at the visible surface, while image-to-3D models generate complete shapes that are often misaligned with the input. We introduce World Tracing, a generative pixel-aligned geometry representation that predicts 3D points aligned with observed pixels while completing geometry beyond the visible surface. For each input pixel, World Tracing predicts an ordered stack of camera-space 3D points, where the first layer represents the visible surface and subsequent layers represent front-to-back intersections with occluded surfaces. We instantiate this representation with a world-tracing diffusion transformer, WT-DiT, which treats multiple geometry layers as separate denoising tokens coupled through factorized and global attention. WT-DiT is trained with pixel-space flow matching and a mixed noise schedule that balances visible-surface reconstruction with occluded-geometry generation. World Tracing achieves strong performance on visible-surface reconstruction and complete geometry generation across object, scene, and dynamic benchmarks, outperforming both depth predictors and image-to-3D generators. It also preserves 2D-to-3D correspondence, enabling text-driven 3D scene editing, geometry-conditioned novel-view video synthesis, and training-free integration with textured-mesh generators.