스펙트럴스플랫: 스펙트럴 모멘트 지도를 통한 강건한 미분 가능 추적
SpectralSplats: Robust Differentiable Tracking via Spectral Moment Supervision
March 25, 2026
저자: Avigail Cohen Rimon, Amir Mann, Mirela Ben Chen, Or Litany
cs.AI
초록
3D 가우시안 스플래팅(3DGS)은 실시간으로 사실적인 새로운 시점 합성을 가능하게 하여 모델 기반 비디오 추적에 매우 매력적인 표현 방식입니다. 그러나 3DGS 렌더러의 미분 가능성을 실제 환경에서 활용하는 것은 여전히 극도로 불안정한 것으로 알려져 있습니다. 근본적인 병목 현상은 가우시안 기본 요소의 컴팩트하고 국소적인 지원 범위에 있습니다. 표준 광도 측정 목적 함수는 공간적 중첩을 암묵적으로 가정하는데, 심각한 카메라 오정렬로 인해 렌더링된 객체가 대상의 국소적 범위를 완전히 벗어나면 기울기가 완전히 사라져 최적화 과정이 중단됩니다. 본 논문에서는 최적화 목표를 공간 영역에서 주파수 영역으로 전환하여 이 "기울기 소실" 문제를 해결하는 강력한 추적 프레임워크인 SpectralSplats를 소개합니다. 렌더링된 이미지를 전역 복소수 정현파 특징 집합(스펙트럴 모멘트)을 통해 지도함으로써, 픽셀 중첩이 전혀 없는 경우에도 전체 이미지 영역에 걸쳐 대상 방향으로의 유효한 기울기가 존재하는 전역 어트랙션 베이신을 구축합니다. 고주파와 관련된 주기적인 국소 최소값을 도입하지 않으면서 이 전역 베이신을 활용하기 위해, 첫 원리로부터 체계적인 주파수 어닐링 스케줄을 유도하여 최적화 과정이 전역 볼록성에서 정밀한 공간 정렬로 자연스럽게 전환되도록 합니다. SpectralSplats가 다양한 변형 매개변수화(MLP부터 희소 제어점까지)에 걸쳐 공간 손실을 위한 원활한 드롭인 대체재로 작동함을 입증하며, 표준 외관 기반 추적이 치명적으로 실패하는 심각하게 오정렬된 초기화 상태에서도 복잡한 변형을 성공적으로 복구합니다.
English
3D Gaussian Splatting (3DGS) enables real-time, photorealistic novel view synthesis, making it a highly attractive representation for model-based video tracking. However, leveraging the differentiability of the 3DGS renderer "in the wild" remains notoriously fragile. A fundamental bottleneck lies in the compact, local support of the Gaussian primitives. Standard photometric objectives implicitly rely on spatial overlap; if severe camera misalignment places the rendered object outside the target's local footprint, gradients strictly vanish, leaving the optimizer stranded. We introduce SpectralSplats, a robust tracking framework that resolves this "vanishing gradient" problem by shifting the optimization objective from the spatial to the frequency domain. By supervising the rendered image via a set of global complex sinusoidal features (Spectral Moments), we construct a global basin of attraction, ensuring that a valid, directional gradient toward the target exists across the entire image domain, even when pixel overlap is completely nonexistent. To harness this global basin without introducing periodic local minima associated with high frequencies, we derive a principled Frequency Annealing schedule from first principles, gracefully transitioning the optimizer from global convexity to precise spatial alignment. We demonstrate that SpectralSplats acts as a seamless, drop-in replacement for spatial losses across diverse deformation parameterizations (from MLPs to sparse control points), successfully recovering complex deformations even from severely misaligned initializations where standard appearance-based tracking catastrophically fails.