Tracé du monde : géométrie générative alignée sur les pixels au-delà du visible

Résumé

Les méthodes de conversion image-à-3D font souvent un compromis entre fidélité et complétude : les estimateurs de profondeur sont ancrés aux pixels d'entrée mais s'arrêtent à la surface visible, tandis que les modèles image-à-3D génèrent des formes complètes souvent mal alignées avec l'entrée. Nous introduisons World Tracing, une représentation géométrique générative alignée sur les pixels qui prédit des points 3D alignés avec les pixels observés tout en complétant la géométrie au-delà de la surface visible. Pour chaque pixel d'entrée, World Tracing prédit une pile ordonnée de points 3D dans l'espace caméra, où la première couche représente la surface visible et les couches suivantes représentent les intersections avant-arrière avec les surfaces occluses. Nous instancions cette représentation avec un transformeur de diffusion world-tracing, WT-DiT, qui traite les multiples couches géométriques comme des jetons de débruitage séparés couplés par attention factorisée et globale. WT-DiT est entraîné avec un flow matching dans l'espace des pixels et un programme de bruit mixte qui équilibre la reconstruction de la surface visible avec la génération de géométrie occluse. World Tracing atteint de bonnes performances en reconstruction de surface visible et en génération de géométrie complète sur des bancs d'essai d'objets, de scènes et dynamiques, surpassant à la fois les prédicteurs de profondeur et les générateurs image-à-3D. Il préserve également la correspondance 2D-à-3D, permettant l'édition de scènes 3D pilotée par texte, la synthèse de vidéos de nouvelles vues conditionnée par la géométrie, et l'intégration sans entraînement avec des générateurs de maillages texturés.

English

Image-to-3D methods often trade off faithfulness and completeness: depth estimators are anchored to input pixels but stop at the visible surface, while image-to-3D models generate complete shapes that are often misaligned with the input. We introduce World Tracing, a generative pixel-aligned geometry representation that predicts 3D points aligned with observed pixels while completing geometry beyond the visible surface. For each input pixel, World Tracing predicts an ordered stack of camera-space 3D points, where the first layer represents the visible surface and subsequent layers represent front-to-back intersections with occluded surfaces. We instantiate this representation with a world-tracing diffusion transformer, WT-DiT, which treats multiple geometry layers as separate denoising tokens coupled through factorized and global attention. WT-DiT is trained with pixel-space flow matching and a mixed noise schedule that balances visible-surface reconstruction with occluded-geometry generation. World Tracing achieves strong performance on visible-surface reconstruction and complete geometry generation across object, scene, and dynamic benchmarks, outperforming both depth predictors and image-to-3D generators. It also preserves 2D-to-3D correspondence, enabling text-driven 3D scene editing, geometry-conditioned novel-view video synthesis, and training-free integration with textured-mesh generators.