SplAttN: Overbrugging van 2D naar 3D met Gaussiaanse Soft Splatting en Attention voor Puntwolkcompletering
SplAttN: Bridging 2D and 3D with Gaussian Soft Splatting and Attention for Point Cloud Completion
May 2, 2026
Auteurs: Zhaoyang Li, Zhichao You, Tianrui Li
cs.AI
Samenvatting
Hoewel multimodale leer de puntenwolkcompletie heeft verbeterd, blijven de theoretische mechanismen onduidelijk. Recente werken schrijven het succes toe aan de verbinding tussen modaliteiten, maar wij constateren dat standaard harde projectie deze verbinding verbreekt: het projecteren van een schaarse puntenwolk op het beeldvlak resulteert in een extreem schaarse drager, wat de propagatie van visuele priorissen belemmert – een foutmodus die wij Cross-Modale Entropie-Instorting noemen. Om deze praktische beperking aan te pakken, stellen wij SplAttN voor, dat harde projectie vervangt door Differentieerbaar Gaussisch Uitstrijken om een dichte, continue representatie in het beeldvlak te produceren. Door projectie te herformuleren als continue dichtheidschatting vermijdt SplAttN ingestorte schaarse dragers, vergemakkelijkt het de gradientstroom en verbetert het de leerbaarheid van cross-modale verbindingen. Uitgebreide experimenten tonen aan dat SplAttN state-of-the-art prestaties behaalt op PCN en ShapeNet-55/34. Cruciaal is dat wij de real-world KITTI-benchmark gebruiken als stresstest voor multimodale afhankelijkheid. Tegenfeitelijke evaluatie toont aan dat, terwijl baseline-methoden degenereren tot unimodale sjabloonzoekers die ongevoelig zijn voor visuele verwijdering, SplAttN een robuuste afhankelijkheid van visuele aanwijzingen behoudt. Dit valideert dat onze methode een effectieve cross-modale verbinding tot stand brengt. Code is beschikbaar op https://github.com/zay002/SplAttN.
English
Although multi-modal learning has advanced point cloud completion, the theoretical mechanisms remain unclear. Recent works attribute success to the connection between modalities, yet we identify that standard hard projection severs this connection: projecting a sparse point cloud onto the image plane yields an extremely sparse support, which hinders visual prior propagation, a failure mode we term Cross-Modal Entropy Collapse. To address this practical limitation, we propose SplAttN, which replaces hard projection with Differentiable Gaussian Splatting to produce a dense, continuous image-plane representation. By reformulating projection as continuous density estimation, SplAttN avoids collapsed sparse support, facilitates gradient flow, and improves cross-modal connection learnability. Extensive experiments show that SplAttN achieves state-of-the-art performance on PCN and ShapeNet-55/34. Crucially, we utilize the real-world KITTI benchmark as a stress test for multi-modal reliance. Counter-factual evaluation reveals that while baselines degenerate into unimodal template retrievers insensitive to visual removal, SplAttN maintains a robust dependency on visual cues, validating that our method establishes an effective cross-modal connection. Code is available at https://github.com/zay002/SplAttN.