ChatPaper.aiChatPaper

C-GenReg: Registro de Nuvens de Pontos 3D sem Treinamento através de Geração Geometria-para-Imagem Multi-Vista Consistente com Fusão de Modalidades Probabilísticas

C-GenReg: Training-Free 3D Point Cloud Registration by Multi-View-Consistent Geometry-to-Image Generation with Probabilistic Modalities Fusion

April 17, 2026
Autores: Yuval Haitman, Amit Efraim, Joseph M. Francos
cs.AI

Resumo

Apresentamos o C-GenReg, uma estrutura *training-free* para o registro de nuvens de pontos 3D que aproveita os pontos fortes complementares dos *priors* generativos em escala mundial e dos Modelos de Base de Visão (*Vision Foundation Models - VFMs*) orientados ao registro. Os métodos atuais de registro de nuvens de pontos 3D baseados em aprendizado têm dificuldade em generalizar entre diferentes modalidades de sensoriamento, diferenças de amostragem e ambientes. Portanto, o C-GenReg aumenta o ramo geométrico de registro da nuvem de pontos transferindo o problema de correspondência para um domínio de imagem auxiliar, onde os VFMs se destacam, usando um Modelo de Base Mundial para sintetizar representações RGB consistentes de múltiplas vistas a partir da geometria de entrada. Esta transferência generativa preserva a coerência espacial entre as vistas de origem e destino sem qualquer ajuste fino (*fine-tuning*). A partir dessas visualizações geradas, um VFM pré-treinado para encontrar correspondências densas extrai os pares correspondentes. As correspondências de pixels resultantes são então projetadas de volta para o espaço 3D através dos mapas de profundidade originais. Para aumentar ainda mais a robustez, introduzimos um esquema probabilístico de fusão a frio (*probabilistic cold-fusion*) "Corresponder-e-Fundir" (*Match-then-Fuse*) que combina dois *posteriors* de correspondência independentes: o do ramo RGB gerado e o do ramo geométrico bruto. Esta fusão fundamentada preserva o viés indutivo de cada modalidade e fornece uma confiança calibrada sem qualquer aprendizado adicional. O C-GenReg é *zero-shot* e *plug-and-play*: todos os módulos são pré-treinados e operam sem ajuste fino. Experimentos extensivos em *benchmarks* de ambientes internos (3DMatch, ScanNet) e externos (Waymo) demonstram um forte desempenho *zero-shot* e uma generalização cruzada de domínio superior. Pela primeira vez, demonstramos uma estrutura de registro generativa que opera com sucesso em dados LiDAR externos reais, onde não há dados de imagem disponíveis.
English
We introduce C-GenReg, a training-free framework for 3D point cloud registration that leverages the complementary strengths of world-scale generative priors and registration-oriented Vision Foundation Models (VFMs). Current learning-based 3D point cloud registration methods struggle to generalize across sensing modalities, sampling differences, and environments. Hence, C-GenReg augments the geometric point cloud registration branch by transferring the matching problem into an auxiliary image domain, where VFMs excel, using a World Foundation Model to synthesize multi-view-consistent RGB representations from the input geometry. This generative transfer, preserves spatial coherence across source and target views without any fine-tuning. From these generated views, a VFM pretrained for finding dense correspondences extracts matches. The resulting pixel correspondences are lifted back to 3D via the original depth maps. To further enhance robustness, we introduce a "Match-then-Fuse" probabilistic cold-fusion scheme that combines two independent correspondence posteriors, that of the generated-RGB branch with that of the raw geometric branch. This principled fusion preserves each modality inductive bias and provides calibrated confidence without any additional learning. C-GenReg is zero-shot and plug-and-play: all modules are pretrained and operate without fine-tuning. Extensive experiments on indoor (3DMatch, ScanNet) and outdoor (Waymo) benchmarks demonstrate strong zero-shot performance and superior cross-domain generalization. For the first time, we demonstrate a generative registration framework that operates successfully on real outdoor LiDAR data, where no imagery data is available.
PDF122April 24, 2026