C-GenReg: Registrazione di Nuvole di Punti 3D Senza Addestramento tramite Generazione Geometria-Immagine Multi-Vista Coerente con Fusione di Modalità Probabilistiche

Abstract

Introduciamo C-GenReg, un framework per la registrazione di nuvole di punti 3D che non richiede addestramento e che sfrutta i punti di forza complementari dei prior generativi a scala mondiale e dei Modelli Fondazione Visivi (VFM) orientati alla registrazione. I metodi di registrazione di nuvole di punti 3D basati sull'apprendimento attuali faticano a generalizzare attraverso diverse modalità di acquisizione, differenze di campionamento e ambienti. Pertanto, C-GenReg potenzia il ramo di registrazione geometrica della nuvola di punti trasferendo il problema della corrispondenza in un dominio immagine ausiliario, dove i VFM eccellono, utilizzando un Modello Fondazione Mondiale per sintetizzare rappresentazioni RGB multi-vista coerenti a partire dalla geometria in input. Questo trasferimento generativo preserva la coerenza spaziale tra le viste di origine e di destinazione senza alcuna messa a punto. Da queste viste generate, un VFM pre-addestrato per trovare corrispondenze dense estrae i match. Le corrispondenze pixel risultanti vengono riportate nello spazio 3D tramite le mappe di profondità originali. Per aumentare ulteriormente la robustezza, introduciamo uno schema di fusione probabilistica "Match-then-Fuse" che combina due posteriori di corrispondenza indipendenti: quello del ramo RGB generato e quello del ramo geometrico grezzo. Questa fusione principiata preserva il bias induttivo di ciascuna modalità e fornisce una confidenza calibrata senza alcun apprendimento aggiuntivo. C-GenReg è zero-shot e plug-and-play: tutti i moduli sono pre-addestrati e operano senza messa a punto. Esperimenti estensivi su benchmark indoor (3DMatch, ScanNet) e outdoor (Waymo) dimostrano prestazioni zero-shot solide e una superiore generalizzazione cross-dominio. Per la prima volta, dimostriamo un framework di registrazione generativo che opera con successo su dati LiDAR outdoor reali, dove non sono disponibili dati di immagine.

English

We introduce C-GenReg, a training-free framework for 3D point cloud registration that leverages the complementary strengths of world-scale generative priors and registration-oriented Vision Foundation Models (VFMs). Current learning-based 3D point cloud registration methods struggle to generalize across sensing modalities, sampling differences, and environments. Hence, C-GenReg augments the geometric point cloud registration branch by transferring the matching problem into an auxiliary image domain, where VFMs excel, using a World Foundation Model to synthesize multi-view-consistent RGB representations from the input geometry. This generative transfer, preserves spatial coherence across source and target views without any fine-tuning. From these generated views, a VFM pretrained for finding dense correspondences extracts matches. The resulting pixel correspondences are lifted back to 3D via the original depth maps. To further enhance robustness, we introduce a "Match-then-Fuse" probabilistic cold-fusion scheme that combines two independent correspondence posteriors, that of the generated-RGB branch with that of the raw geometric branch. This principled fusion preserves each modality inductive bias and provides calibrated confidence without any additional learning. C-GenReg is zero-shot and plug-and-play: all modules are pretrained and operate without fine-tuning. Extensive experiments on indoor (3DMatch, ScanNet) and outdoor (Waymo) benchmarks demonstrate strong zero-shot performance and superior cross-domain generalization. For the first time, we demonstrate a generative registration framework that operates successfully on real outdoor LiDAR data, where no imagery data is available.

C-GenReg: Registrazione di Nuvole di Punti 3D Senza Addestramento tramite Generazione Geometria-Immagine Multi-Vista Coerente con Fusione di Modalità Probabilistiche

C-GenReg: Training-Free 3D Point Cloud Registration by Multi-View-Consistent Geometry-to-Image Generation with Probabilistic Modalities Fusion

Abstract

Support