SplAttN: Uniendo 2D y 3D con Proyección Gaussiana Suave y Atención para la Completación de Nubes de Puntos

Resumen

Aunque el aprendizaje multimodal ha avanzado en la completación de nubes de puntos, los mecanismos teóricos siguen sin estar claros. Trabajos recientes atribuyen el éxito a la conexión entre modalidades; sin embargo, identificamos que la proyección estándar dura rompe esta conexión: proyectar una nube de puntos dispersa sobre el plano de la imagen produce un soporte extremadamente disperso, lo que dificulta la propagación de priores visuales, un modo de fallo que denominamos Colapso de Entropía Cross-Modal. Para abordar esta limitación práctica, proponemos SplAttN, que reemplaza la proyección dura con Differentiable Gaussian Splatting para producir una representación densa y continua en el plano de la imagen. Al reformular la proyección como una estimación de densidad continua, SplAttN evita el soporte disperso colapsado, facilita el flujo de gradientes y mejora la capacidad de aprendizaje de la conexión multimodal. Experimentos exhaustivos muestran que SplAttN logra un rendimiento state-of-the-art en PCN y ShapeNet-55/34. Crucialmente, utilizamos el benchmark del mundo real KITTI como una prueba de estrés para la dependencia multimodal. La evaluación contrafáctica revela que, mientras los métodos base degeneran en recuperadores unimodales de plantillas insensibles a la eliminación visual, SplAttN mantiene una dependencia robusta de las señales visuales, validando que nuestro método establece una conexión cross-modal efectiva. El código está disponible en https://github.com/zay002/SplAttN.

English

Although multi-modal learning has advanced point cloud completion, the theoretical mechanisms remain unclear. Recent works attribute success to the connection between modalities, yet we identify that standard hard projection severs this connection: projecting a sparse point cloud onto the image plane yields an extremely sparse support, which hinders visual prior propagation, a failure mode we term Cross-Modal Entropy Collapse. To address this practical limitation, we propose SplAttN, which replaces hard projection with Differentiable Gaussian Splatting to produce a dense, continuous image-plane representation. By reformulating projection as continuous density estimation, SplAttN avoids collapsed sparse support, facilitates gradient flow, and improves cross-modal connection learnability. Extensive experiments show that SplAttN achieves state-of-the-art performance on PCN and ShapeNet-55/34. Crucially, we utilize the real-world KITTI benchmark as a stress test for multi-modal reliance. Counter-factual evaluation reveals that while baselines degenerate into unimodal template retrievers insensitive to visual removal, SplAttN maintains a robust dependency on visual cues, validating that our method establishes an effective cross-modal connection. Code is available at https://github.com/zay002/SplAttN.

SplAttN: Uniendo 2D y 3D con Proyección Gaussiana Suave y Atención para la Completación de Nubes de Puntos

SplAttN: Bridging 2D and 3D with Gaussian Soft Splatting and Attention for Point Cloud Completion

Resumen

Support