Wereldtracering: Generatieve pixel-uitgelijnde geometrie voorbij het zichtbare

Samenvatting

Beeld-naar-3D-methoden maken vaak een afweging tussen getrouwheid en volledigheid: diepteschatters zijn verankerd aan invoerpixels maar stoppen bij het zichtbare oppervlak, terwijl beeld-naar-3D-modellen volledige vormen genereren die vaak niet goed uitgelijnd zijn met de invoer. We introduceren World Tracing, een generatieve pixel-uitgelijnde geometrierepresentatie die 3D-punten voorspelt die zijn uitgelijnd met waargenomen pixels, terwijl geometrie voorbij het zichtbare oppervlak wordt aangevuld. Voor elke invoerpixel voorspelt World Tracing een geordende stapel cameraruimte-3D-punten, waarbij de eerste laag het zichtbare oppervlak vertegenwoordigt en volgende lagen de voor-naar-achter doorsnijdingen met geoccludeerde oppervlakken weergeven. We implementeren deze representatie met een world-tracing diffusion transformer, WT-DiT, die meerdere geometrielagen behandelt als afzonderlijke ontruistokens die zijn gekoppeld via gefactoriseerde en globale aandacht. WT-DiT wordt getraind met flow matching in de pixelruimte en een gemengd ruisschema dat de reconstructie van het zichtbare oppervlak in evenwicht brengt met de generatie van geoccludeerde geometrie. World Tracing behaalt sterke prestaties op het gebied van reconstructie van zichtbare oppervlakken en volledige geometriegeneratie in object-, scène- en dynamische benchmarks, en presteert beter dan zowel dieptevoorspellers als beeld-naar-3D-generatoren. Het behoudt ook de 2D-naar-3D-correspondentie, wat tekstgestuurde 3D-scènabewerking, geometrie-geconditioneerde videosynthese van nieuwe aanzichten en integratie zonder training met getextureerde mesh-generatoren mogelijk maakt.

English

Image-to-3D methods often trade off faithfulness and completeness: depth estimators are anchored to input pixels but stop at the visible surface, while image-to-3D models generate complete shapes that are often misaligned with the input. We introduce World Tracing, a generative pixel-aligned geometry representation that predicts 3D points aligned with observed pixels while completing geometry beyond the visible surface. For each input pixel, World Tracing predicts an ordered stack of camera-space 3D points, where the first layer represents the visible surface and subsequent layers represent front-to-back intersections with occluded surfaces. We instantiate this representation with a world-tracing diffusion transformer, WT-DiT, which treats multiple geometry layers as separate denoising tokens coupled through factorized and global attention. WT-DiT is trained with pixel-space flow matching and a mixed noise schedule that balances visible-surface reconstruction with occluded-geometry generation. World Tracing achieves strong performance on visible-surface reconstruction and complete geometry generation across object, scene, and dynamic benchmarks, outperforming both depth predictors and image-to-3D generators. It also preserves 2D-to-3D correspondence, enabling text-driven 3D scene editing, geometry-conditioned novel-view video synthesis, and training-free integration with textured-mesh generators.