C-GenReg: Trainingsvrije 3D-puntenwolkregistratie door middel van multi-view-consistente geometrie-naar-beeldgeneratie met probabilistische modaliteitsfusie

Samenvatting

Wij introduceren C-GenReg, een trainingsvrij raamwerk voor de registratie van 3D-puntenwolken dat de complementaire sterke punten benut van wereld-schaal generatieve voorafkennis en registratie-gerichte Vision Foundation Models (VFMs). Huidige op leren gebaseerde methoden voor 3D-puntenwolkregistratie hebben moeite met generaliseren over verschillende sensormodaliteiten, bemonsteringsverschillen en omgevingen. Daarom versterkt C-GenReg de geometrische tak voor puntenwolkregistratie door het matchingprobleem over te brengen naar een hulp-domein van afbeeldingen, waar VFMs uitblinken, met behulp van een World Foundation Model om multi-view consistente RGB-representaties te synthetiseren vanuit de ingevoerde geometrie. Deze generatieve overdracht behoudt ruimtelijke coherentie tussen bron- en doelweergaven zonder enige fine-tuning. Uit deze gegenereerde weergaven extraheert een VFM, vooraf getraind voor het vinden van dichte correspondenties, matches. De resulterende pixelcorrespondenties worden via de originele dieptekaarten teruggeprojecteerd naar 3D. Om de robuustheid verder te verbeteren, introduceren we een "Match-then-Fuse" probabilistisch cold-fusion-schema dat twee onafhankelijke correspondentie-posteriors combineert: die van de gegenereerde-RGB-tak met die van de ruwe geometrische tak. Deze principiële fusie behoudt de inductieve bias van elke modaliteit en biedt gekalibreerd vertrouwen zonder extra leren. C-GenReg is zero-shot en plug-and-play: alle modules zijn vooraf getraind en werken zonder fine-tuning. Uitgebreide experimenten op indoor (3DMatch, ScanNet) en outdoor (Waymo) benchmarks tonen een sterke zero-shot prestatie en superieure cross-domein generalisatie aan. Voor het eerst demonstreren we een generatief registratieraamwerk dat succesvol werkt op echte outdoor LiDAR-data, waar geen beeldmateriaal beschikbaar is.

English

We introduce C-GenReg, a training-free framework for 3D point cloud registration that leverages the complementary strengths of world-scale generative priors and registration-oriented Vision Foundation Models (VFMs). Current learning-based 3D point cloud registration methods struggle to generalize across sensing modalities, sampling differences, and environments. Hence, C-GenReg augments the geometric point cloud registration branch by transferring the matching problem into an auxiliary image domain, where VFMs excel, using a World Foundation Model to synthesize multi-view-consistent RGB representations from the input geometry. This generative transfer, preserves spatial coherence across source and target views without any fine-tuning. From these generated views, a VFM pretrained for finding dense correspondences extracts matches. The resulting pixel correspondences are lifted back to 3D via the original depth maps. To further enhance robustness, we introduce a "Match-then-Fuse" probabilistic cold-fusion scheme that combines two independent correspondence posteriors, that of the generated-RGB branch with that of the raw geometric branch. This principled fusion preserves each modality inductive bias and provides calibrated confidence without any additional learning. C-GenReg is zero-shot and plug-and-play: all modules are pretrained and operate without fine-tuning. Extensive experiments on indoor (3DMatch, ScanNet) and outdoor (Waymo) benchmarks demonstrate strong zero-shot performance and superior cross-domain generalization. For the first time, we demonstrate a generative registration framework that operates successfully on real outdoor LiDAR data, where no imagery data is available.

C-GenReg: Trainingsvrije 3D-puntenwolkregistratie door middel van multi-view-consistente geometrie-naar-beeldgeneratie met probabilistische modaliteitsfusie

C-GenReg: Training-Free 3D Point Cloud Registration by Multi-View-Consistent Geometry-to-Image Generation with Probabilistic Modalities Fusion

Samenvatting

Support