SplAttN: 가우시안 소프트 스플래팅과 어텐션을 통한 2D와 3D 간 연결 및 포인트 클라우드 복원
SplAttN: Bridging 2D and 3D with Gaussian Soft Splatting and Attention for Point Cloud Completion
May 2, 2026
저자: Zhaoyang Li, Zhichao You, Tianrui Li
cs.AI
초록
멀티모달 학습이 포인트 클라우드 완성 기술을 발전시켜 왔지만, 그 이론적 메커니즘은 여전히 명확하지 않습니다. 최근 연구들은 성공을 모달리티 간 연결 관계로 설명하지만, 우리는 표준 하드 프로젝션이 이 연결을 단절시킨다는 점을 확인했습니다. 즉, 희소 포인트 클라우드를 이미지 평면에 프로젝션하면 극도로 희소한 지지체가 생성되어 시각적 사전 지식의 전파를 방해하는데, 우리는 이러한 실패 모드를 '크로스모달 엔트로피 붕괴'라고 명명합니다. 이러한 실용적 한계를 해결하기 위해 우리는 하드 프로젝션을 Differentiable Gaussian Splatting으로 대체하여 조밀하고 연속적인 이미지 평면 표현을 생성하는 SplAttN을 제안합니다. 프로젝션을 연속적 밀도 추정 문제로 재구성함으로써 SplAttN은 붕괴된 희소 지지체를 회피하고 그래디언트 흐름을 원활하게 하며 크로스모달 연결 학습 가능성을 향상시킵니다. 폭넓은 실험을 통해 SplAttN이 PCN 및 ShapeNet-55/34에서 최첨단 성능을 달성함을 입증했습니다. 무엇보다도 실제 환경의 KITTI 벤치마크를 멀티모달 의존성에 대한 스트레스 테스트로 활용했습니다. 반사실적 평가 결과, 기존 방법론들은 시각 정보 제거에 무감각한 단일 모달 템플릿 검색기로 퇴화하는 반면, SplAttN은 시각 단서에 대한 강건한 의존성을 유지하여 우리 방법이 효과적인 크로스모달 연결을 수립했음을 검증했습니다. 코드는 https://github.com/zay002/SplAttN에서 확인할 수 있습니다.
English
Although multi-modal learning has advanced point cloud completion, the theoretical mechanisms remain unclear. Recent works attribute success to the connection between modalities, yet we identify that standard hard projection severs this connection: projecting a sparse point cloud onto the image plane yields an extremely sparse support, which hinders visual prior propagation, a failure mode we term Cross-Modal Entropy Collapse. To address this practical limitation, we propose SplAttN, which replaces hard projection with Differentiable Gaussian Splatting to produce a dense, continuous image-plane representation. By reformulating projection as continuous density estimation, SplAttN avoids collapsed sparse support, facilitates gradient flow, and improves cross-modal connection learnability. Extensive experiments show that SplAttN achieves state-of-the-art performance on PCN and ShapeNet-55/34. Crucially, we utilize the real-world KITTI benchmark as a stress test for multi-modal reliance. Counter-factual evaluation reveals that while baselines degenerate into unimodal template retrievers insensitive to visual removal, SplAttN maintains a robust dependency on visual cues, validating that our method establishes an effective cross-modal connection. Code is available at https://github.com/zay002/SplAttN.