Trazado del mundo: geometría generativa alineada con píxeles más allá de lo visible

Resumen

Los métodos de imagen a 3D a menudo enfrentan un compromiso entre fidelidad y completitud: los estimadores de profundidad se anclan a los píxeles de entrada pero se detienen en la superficie visible, mientras que los modelos de imagen a 3D generan formas completas que a menudo están desalineadas con la entrada. Presentamos World Tracing, una representación generativa de geometría alineada con píxeles que predice puntos 3D alineados con los píxeles observados a la vez que completa la geometría más allá de la superficie visible. Para cada píxel de entrada, World Tracing predice una pila ordenada de puntos 3D en el espacio de cámara, donde la primera capa representa la superficie visible y las capas subsiguientes representan intersecciones de adelante hacia atrás con superficies ocluidas. Materializamos esta representación con un transformer de difusión de World Tracing, WT-DiT, que trata múltiples capas de geometría como tokens de denoising separados, acoplados mediante atención factorizada y global. WT-DiT se entrena con emparejamiento de flujo en el espacio de píxeles y un esquema de ruido mixto que equilibra la reconstrucción de la superficie visible con la generación de geometría ocluida. World Tracing logra un rendimiento sólido en la reconstrucción de superficies visibles y la generación de geometría completa en benchmarks de objetos, escenas y dinámicos, superando tanto a los predictores de profundidad como a los generadores de imagen a 3D. También preserva la correspondencia 2D a 3D, lo que permite la edición de escenas 3D guiada por texto, la síntesis de video de vista novedosa condicionada por geometría y la integración sin entrenamiento con generadores de mallas texturizadas.

English

Image-to-3D methods often trade off faithfulness and completeness: depth estimators are anchored to input pixels but stop at the visible surface, while image-to-3D models generate complete shapes that are often misaligned with the input. We introduce World Tracing, a generative pixel-aligned geometry representation that predicts 3D points aligned with observed pixels while completing geometry beyond the visible surface. For each input pixel, World Tracing predicts an ordered stack of camera-space 3D points, where the first layer represents the visible surface and subsequent layers represent front-to-back intersections with occluded surfaces. We instantiate this representation with a world-tracing diffusion transformer, WT-DiT, which treats multiple geometry layers as separate denoising tokens coupled through factorized and global attention. WT-DiT is trained with pixel-space flow matching and a mixed noise schedule that balances visible-surface reconstruction with occluded-geometry generation. World Tracing achieves strong performance on visible-surface reconstruction and complete geometry generation across object, scene, and dynamic benchmarks, outperforming both depth predictors and image-to-3D generators. It also preserves 2D-to-3D correspondence, enabling text-driven 3D scene editing, geometry-conditioned novel-view video synthesis, and training-free integration with textured-mesh generators.