C-GenReg: Обучение-свободная регистрация 3D облаков точек посредством многовидово-согласованного геометрически-ориентированного генеративного преобразования в изображения с вероятностным слиянием модальностей

Аннотация

Мы представляем C-GenReg — не требующий обучения фреймворк для регистрации 3D-облаков точек, который использует комплементарные преимущества генеративных априорных моделей мирового масштаба и ориентированных на регистрацию Vision Foundation Models (VFMs). Современные методы регистрации 3D-облаков точек, основанные на обучении, плохо обобщаются на различные сенсорные модальности, различия в сэмплировании и условия окружающей среды. Поэтому C-GenReg расширяет геометрический конвейер регистрации облаков точек, перенося задачу установления соответствий во вспомогательное изображенное пространство, где VFM демонстрируют превосходные результаты, используя World Foundation Model для синтеза согласованных по нескольким видам RGB-представлений из входной геометрии. Этот генеративный перенос сохраняет пространственную согласованность между исходными и целевыми видами без какой-либо дообучения. Из сгенерированных видов VFM, предобученная для поиска плотных соответствий, извлекает соответствия. Полученные пиксельные соответствия проецируются обратно в 3D через исходные карты глубины. Для повышения устойчивости мы вводим вероятностную схему холодного слияния «Match-then-Fuse», которая объединяет два независимых апостериорных распределения соответствий: от ветви сгенерированного RGB-представления и от ветви исходной геометрии. Это принципиальное слияние сохраняет индуктивную предвзятость каждой модальности и обеспечивает калиброванную уверенность без дополнительного обучения. C-GenReg является zero-shot и plug-and-play решением: все модули предобучены и работают без дообучения. Масштабные эксперименты на внутренних (3DMatch, ScanNet) и внешних (Waymo) бенчмарках демонстрируют высокую zero-shot производительность и превосходную кросс-доменную обобщающую способность. Впервые мы демонстрируем генеративный фреймворк для регистрации, успешно работающий на реальных данных лидара, полученных на открытой местности, где данные изображений отсутствуют.

English

We introduce C-GenReg, a training-free framework for 3D point cloud registration that leverages the complementary strengths of world-scale generative priors and registration-oriented Vision Foundation Models (VFMs). Current learning-based 3D point cloud registration methods struggle to generalize across sensing modalities, sampling differences, and environments. Hence, C-GenReg augments the geometric point cloud registration branch by transferring the matching problem into an auxiliary image domain, where VFMs excel, using a World Foundation Model to synthesize multi-view-consistent RGB representations from the input geometry. This generative transfer, preserves spatial coherence across source and target views without any fine-tuning. From these generated views, a VFM pretrained for finding dense correspondences extracts matches. The resulting pixel correspondences are lifted back to 3D via the original depth maps. To further enhance robustness, we introduce a "Match-then-Fuse" probabilistic cold-fusion scheme that combines two independent correspondence posteriors, that of the generated-RGB branch with that of the raw geometric branch. This principled fusion preserves each modality inductive bias and provides calibrated confidence without any additional learning. C-GenReg is zero-shot and plug-and-play: all modules are pretrained and operate without fine-tuning. Extensive experiments on indoor (3DMatch, ScanNet) and outdoor (Waymo) benchmarks demonstrate strong zero-shot performance and superior cross-domain generalization. For the first time, we demonstrate a generative registration framework that operates successfully on real outdoor LiDAR data, where no imagery data is available.

C-GenReg: Training-Free 3D Point Cloud Registration by Multi-View-Consistent Geometry-to-Image Generation with Probabilistic Modalities Fusion

Аннотация

Support