C-GenReg: Registro de Nubes de Puntos 3D Sin Entrenamiento Mediante Generación Geometría-a-Imagen Multivista Consistente con Fusión de Modalidades Probabilísticas
C-GenReg: Training-Free 3D Point Cloud Registration by Multi-View-Consistent Geometry-to-Image Generation with Probabilistic Modalities Fusion
April 17, 2026
Autores: Yuval Haitman, Amit Efraim, Joseph M. Francos
cs.AI
Resumen
Presentamos C-GenReg, un marco de trabajo sin entrenamiento para el registro de nubes de puntos 3D que aprovecha las fortalezas complementarias de los *priors* generativos a escala mundial y los Modelos Fundamentales de Visión (VFMs, por sus siglas en inglés) orientados al registro. Los métodos actuales de registro de nubes de puntos 3D basados en aprendizaje tienen dificultades para generalizar entre diferentes modalidades de sensado, diferencias de muestreo y entornos. Por lo tanto, C-GenReg aumenta la rama geométrica de registro de nubes de puntos transfiriendo el problema de correspondencia a un dominio de imagen auxiliar, donde los VFMs sobresalen, utilizando un Modelo Fundamental Mundial para sintetizar representaciones RGB consistentes multi-vista a partir de la geometría de entrada. Esta transferencia generativa preserva la coherencia espacial entre las vistas de origen y destino sin necesidad de ajuste fino alguno. A partir de estas vistas generadas, un VFM preentrenado para encontrar correspondencias densas extrae los emparejamientos. Las correspondencias de píxeles resultantes se proyectan de nuevo a 3D mediante los mapas de profundidad originales. Para mejorar aún más la robustez, introducimos un esquema probabilístico de fusión en frío "Emparejar-y-Fusionar" que combina dos distribuciones posteriores de correspondencia independientes: la de la rama RGB generada y la de la rama geométrica en bruto. Esta fusión fundamentada preserva el sesgo inductivo de cada modalidad y proporciona una confianza calibrada sin ningún aprendizaje adicional. C-GenReg es *zero-shot* y *plug-and-play*: todos los módulos están preentrenados y operan sin ajuste fino. Experimentos exhaustivos en benchmarks de interiores (3DMatch, ScanNet) y exteriores (Waymo) demuestran un sólido rendimiento *zero-shot* y una superior generalización cruzada de dominio. Por primera vez, demostramos un marco de registro generativo que opera con éxito en datos LiDAR reales de exteriores, donde no hay datos de imagen disponibles.
English
We introduce C-GenReg, a training-free framework for 3D point cloud registration that leverages the complementary strengths of world-scale generative priors and registration-oriented Vision Foundation Models (VFMs). Current learning-based 3D point cloud registration methods struggle to generalize across sensing modalities, sampling differences, and environments. Hence, C-GenReg augments the geometric point cloud registration branch by transferring the matching problem into an auxiliary image domain, where VFMs excel, using a World Foundation Model to synthesize multi-view-consistent RGB representations from the input geometry. This generative transfer, preserves spatial coherence across source and target views without any fine-tuning. From these generated views, a VFM pretrained for finding dense correspondences extracts matches. The resulting pixel correspondences are lifted back to 3D via the original depth maps. To further enhance robustness, we introduce a "Match-then-Fuse" probabilistic cold-fusion scheme that combines two independent correspondence posteriors, that of the generated-RGB branch with that of the raw geometric branch. This principled fusion preserves each modality inductive bias and provides calibrated confidence without any additional learning. C-GenReg is zero-shot and plug-and-play: all modules are pretrained and operate without fine-tuning. Extensive experiments on indoor (3DMatch, ScanNet) and outdoor (Waymo) benchmarks demonstrate strong zero-shot performance and superior cross-domain generalization. For the first time, we demonstrate a generative registration framework that operates successfully on real outdoor LiDAR data, where no imagery data is available.