C-GenReg: Trainingsfreie Registrierung von 3D-Punktwolken durch multiview-konsistente Geometrie-zu-Bild-Generierung mit probabilischer Modalfusion

Zusammenfassung

Wir stellen C-GenReg vor, ein trainingsfreies Framework für die Registrierung von 3D-Punktwolken, das die komplementären Stärken von weltumspannenden generativen Priors und registrierungsorientierten Vision Foundation Models (VFMs) nutzt. Aktuelle lernbasierte Methoden zur Registrierung von 3D-Punktwolken haben Schwierigkeiten, sich über verschiedene Erfassungsmodalitäten, Abtastunterschiede und Umgebungen hinweg zu verallgemeinern. Daher erweitert C-GenReg den geometrischen Registrierungszweig für Punktwolken, indem es das Matching-Problem mithilfe eines World Foundation Models in eine auxiliary Bilddomäne überträgt, in der VFMs hervorragend arbeiten, um aus der Eingabegeometrie multi-view-konsistente RGB-Repräsentationen zu synthetisieren. Dieser generative Transfer bewahrt die räumliche Kohärenz zwischen Quell- und Zielansichten ohne jegliche Feinabstimmung. Aus diesen generierten Ansichten extrahiert ein für die Suche nach dichten Korrespondenzen vortrainiertes VFM Übereinstimmungen. Die resultierenden Pixelkorrespondenzen werden mittels der ursprünglichen Tiefenkarten zurück in den 3D-Raum projiziert. Um die Robustheit weiter zu erhöhen, führen wir ein probabilisches "Match-then-Fuse"-Cold-Fusion-Schema ein, das zwei unabhängige Korrespondenz-Posteriors kombiniert: jenes des generierten-RGB-Zweigs mit jenem des rohen geometrischen Zweigs. Diese prinzipiengeleitete Fusion bewahrt die induktive Verzerrung jeder Modalität und liefert kalibrierte Konfidenz ohne zusätzliches Lernen. C-GenReg ist Zero-Shot und Plug-and-Play: alle Module sind vortrainiert und arbeiten ohne Feinabstimmung. Umfangreiche Experimente mit Indoor- (3DMatch, ScanNet) und Outdoor-Benchmarks (Waymo) demonstrieren eine starke Zero-Shot-Leistung und überlegene domänenübergreifende Generalisierung. Zum ersten Mal demonstrieren wir ein generatives Registrierungsframework, das erfolgreich auf realen Outdoor-LiDAR-Daten operiert, für die keine Bilddaten verfügbar sind.

English

We introduce C-GenReg, a training-free framework for 3D point cloud registration that leverages the complementary strengths of world-scale generative priors and registration-oriented Vision Foundation Models (VFMs). Current learning-based 3D point cloud registration methods struggle to generalize across sensing modalities, sampling differences, and environments. Hence, C-GenReg augments the geometric point cloud registration branch by transferring the matching problem into an auxiliary image domain, where VFMs excel, using a World Foundation Model to synthesize multi-view-consistent RGB representations from the input geometry. This generative transfer, preserves spatial coherence across source and target views without any fine-tuning. From these generated views, a VFM pretrained for finding dense correspondences extracts matches. The resulting pixel correspondences are lifted back to 3D via the original depth maps. To further enhance robustness, we introduce a "Match-then-Fuse" probabilistic cold-fusion scheme that combines two independent correspondence posteriors, that of the generated-RGB branch with that of the raw geometric branch. This principled fusion preserves each modality inductive bias and provides calibrated confidence without any additional learning. C-GenReg is zero-shot and plug-and-play: all modules are pretrained and operate without fine-tuning. Extensive experiments on indoor (3DMatch, ScanNet) and outdoor (Waymo) benchmarks demonstrate strong zero-shot performance and superior cross-domain generalization. For the first time, we demonstrate a generative registration framework that operates successfully on real outdoor LiDAR data, where no imagery data is available.

C-GenReg: Trainingsfreie Registrierung von 3D-Punktwolken durch multiview-konsistente Geometrie-zu-Bild-Generierung mit probabilischer Modalfusion

C-GenReg: Training-Free 3D Point Cloud Registration by Multi-View-Consistent Geometry-to-Image Generation with Probabilistic Modalities Fusion

Zusammenfassung

Support