World Tracing: Generative pixelgenaue Geometrie jenseits des Sichtbaren

Zusammenfassung

Bild-zu-3D-Methoden stellen oft einen Kompromiss zwischen Genauigkeit und Vollständigkeit dar: Tiefenschätzer sind an die Eingangspixel gebunden, enden jedoch an der sichtbaren Oberfläche, während Bild-zu-3D-Modelle vollständige Formen erzeugen, die häufig nicht mit der Eingabe übereinstimmen. Wir stellen World Tracing vor, eine generative pixelgenähte Geometrierepräsentation, die 3D-Punkte vorhersagt, die mit beobachteten Pixeln ausgerichtet sind, und gleichzeitig die Geometrie jenseits der sichtbaren Oberfläche vervollständigt. Für jedes Eingangspixel prognostiziert World Tracing einen geordneten Stapel von 3D-Punkten im Kameraraum, wobei die erste Schicht die sichtbare Oberfläche und nachfolgende Schichten die Schnittpunkte mit verdeckten Oberflächen von vorne nach hinten repräsentieren. Wir instanziieren diese Repräsentation mit einem World-Tracing-Diffusionstransformer, WT-DiT, der mehrere Geometrieschichten als separate Rauschunterdrückungs-Tokens behandelt, die durch faktorisierte und globale Aufmerksamkeit gekoppelt sind. WT-DiT wird mit Pixelraum-Flussabgleich und einem gemischten Rauschplan trainiert, der die Rekonstruktion der sichtbaren Oberfläche mit der Erzeugung der verdeckten Geometrie ausbalanciert. World Tracing erzielt starke Leistungen bei der Rekonstruktion sichtbarer Oberflächen und der Erzeugung vollständiger Geometrie auf Objekt-, Szenen- und Dynamik-Benchmarks und übertrifft sowohl Tiefenschätzer als auch Bild-zu-3D-Generatoren. Es bewahrt außerdem die 2D-zu-3D-Korrespondenz und ermöglicht so textgesteuerte 3D-Szenenbearbeitung, geometriesgesteuerte Neuansichts-Videosynthese sowie transformationsfreie Integration mit texturierten Mesh-Generatoren.

English

Image-to-3D methods often trade off faithfulness and completeness: depth estimators are anchored to input pixels but stop at the visible surface, while image-to-3D models generate complete shapes that are often misaligned with the input. We introduce World Tracing, a generative pixel-aligned geometry representation that predicts 3D points aligned with observed pixels while completing geometry beyond the visible surface. For each input pixel, World Tracing predicts an ordered stack of camera-space 3D points, where the first layer represents the visible surface and subsequent layers represent front-to-back intersections with occluded surfaces. We instantiate this representation with a world-tracing diffusion transformer, WT-DiT, which treats multiple geometry layers as separate denoising tokens coupled through factorized and global attention. WT-DiT is trained with pixel-space flow matching and a mixed noise schedule that balances visible-surface reconstruction with occluded-geometry generation. World Tracing achieves strong performance on visible-surface reconstruction and complete geometry generation across object, scene, and dynamic benchmarks, outperforming both depth predictors and image-to-3D generators. It also preserves 2D-to-3D correspondence, enabling text-driven 3D scene editing, geometry-conditioned novel-view video synthesis, and training-free integration with textured-mesh generators.