Traçado de Mundo: Geometria Gerativa Alinhada por Pixel Além do Visível

Resumo

Métodos de imagem para 3D frequentemente sacrificam fidelidade e completude: estimadores de profundidade ancoram-se nos pixels de entrada, mas limitam-se à superfície visível, enquanto modelos de imagem para 3D geram formas completas que frequentemente estão desalinhadas com a entrada. Apresentamos o World Tracing, uma representação geométrica generativa alinhada a pixels que prevê pontos 3D alinhados com pixels observados, ao mesmo tempo que completa a geometria além da superfície visível. Para cada pixel de entrada, o World Tracing prevê uma pilha ordenada de pontos 3D no espaço da câmera, onde a primeira camada representa a superfície visível e as camadas subsequentes representam interseções de frente para trás com superfícies oclusas. Instanciamos essa representação com um transformador de difusão de rastreamento mundial, WT-DiT, que trata múltiplas camadas geométricas como tokens de denoising separados, acoplados por meio de atenção fatorada e global. O WT-DiT é treinado com flow matching no espaço de pixels e um cronograma de ruído misto que equilibra a reconstrução da superfície visível com a geração de geometria oclusa. O World Tracing alcança desempenho robusto na reconstrução de superfície visível e na geração de geometria completa em benchmarks de objetos, cenas e dinâmicas, superando tanto preditores de profundidade quanto geradores de imagem para 3D. Ele também preserva a correspondência 2D-para-3D, possibilitando edição de cenas 3D orientada por texto, síntese de vídeo com novas vistas condicionada por geometria e integração sem treinamento com geradores de malha texturizada.

English

Image-to-3D methods often trade off faithfulness and completeness: depth estimators are anchored to input pixels but stop at the visible surface, while image-to-3D models generate complete shapes that are often misaligned with the input. We introduce World Tracing, a generative pixel-aligned geometry representation that predicts 3D points aligned with observed pixels while completing geometry beyond the visible surface. For each input pixel, World Tracing predicts an ordered stack of camera-space 3D points, where the first layer represents the visible surface and subsequent layers represent front-to-back intersections with occluded surfaces. We instantiate this representation with a world-tracing diffusion transformer, WT-DiT, which treats multiple geometry layers as separate denoising tokens coupled through factorized and global attention. WT-DiT is trained with pixel-space flow matching and a mixed noise schedule that balances visible-surface reconstruction with occluded-geometry generation. World Tracing achieves strong performance on visible-surface reconstruction and complete geometry generation across object, scene, and dynamic benchmarks, outperforming both depth predictors and image-to-3D generators. It also preserves 2D-to-3D correspondence, enabling text-driven 3D scene editing, geometry-conditioned novel-view video synthesis, and training-free integration with textured-mesh generators.