Мировая трассировка: генеративная пиксельно-выровненная геометрия за пределами видимого

Аннотация

Методы преобразования изображений в 3D часто предполагают компромисс между точностью и полнотой: оценщики глубины привязаны к входным пикселям, но останавливаются на видимой поверхности, в то время как модели «изображение-в-3D» генерируют полные формы, которые часто не согласуются с входным изображением. Мы представляем World Tracing — генеративное геометрическое представление, согласованное с пикселями, которое предсказывает 3D-точки, выровненные по наблюдаемым пикселям, одновременно дополняя геометрию за пределами видимой поверхности. Для каждого входного пикселя World Tracing предсказывает упорядоченный стек 3D-точек в пространстве камеры, где первый слой представляет видимую поверхность, а последующие слои представляют пересечения от переднего к заднему плану с окклюдированными поверхностями. Мы реализуем это представление с помощью диффузионного трансформера World Tracing, WT-DiT, который рассматривает несколько геометрических слоев как отдельные токены шумоподавления, связанные через факторизованное и глобальное внимание. WT-DiT обучается с помощью согласования потоков в пиксельном пространстве и смешанного графика шума, который уравновешивает реконструкцию видимой поверхности и генерацию окклюдированной геометрии. World Tracing демонстрирует высокую производительность при реконструкции видимой поверхности и генерации полной геометрии на эталонных тестах объектов, сцен и динамических сценариев, превосходя как предсказатели глубины, так и генераторы «изображение-в-3D». Он также сохраняет соответствие 2D-3D, обеспечивая текстовое редактирование 3D-сцен, синтез видео с новых ракурсов на основе геометрии и интеграцию без обучения с генераторами текстурированных сеток.

English

Image-to-3D methods often trade off faithfulness and completeness: depth estimators are anchored to input pixels but stop at the visible surface, while image-to-3D models generate complete shapes that are often misaligned with the input. We introduce World Tracing, a generative pixel-aligned geometry representation that predicts 3D points aligned with observed pixels while completing geometry beyond the visible surface. For each input pixel, World Tracing predicts an ordered stack of camera-space 3D points, where the first layer represents the visible surface and subsequent layers represent front-to-back intersections with occluded surfaces. We instantiate this representation with a world-tracing diffusion transformer, WT-DiT, which treats multiple geometry layers as separate denoising tokens coupled through factorized and global attention. WT-DiT is trained with pixel-space flow matching and a mixed noise schedule that balances visible-surface reconstruction with occluded-geometry generation. World Tracing achieves strong performance on visible-surface reconstruction and complete geometry generation across object, scene, and dynamic benchmarks, outperforming both depth predictors and image-to-3D generators. It also preserves 2D-to-3D correspondence, enabling text-driven 3D scene editing, geometry-conditioned novel-view video synthesis, and training-free integration with textured-mesh generators.