ChatPaper.aiChatPaper

SpectralSplats: Seguimiento Diferenciable Robusto mediante Supervisión de Momentos Espectrales

SpectralSplats: Robust Differentiable Tracking via Spectral Moment Supervision

March 25, 2026
Autores: Avigail Cohen Rimon, Amir Mann, Mirela Ben Chen, Or Litany
cs.AI

Resumen

El Splatting Gaussiano 3D (3DGS) permite la síntesis de nuevas vistas en tiempo real y fotorrealista, lo que lo convierte en una representación muy atractiva para el seguimiento de vídeo basado en modelos. Sin embargo, aprovechar la diferenciabilidad del renderizador 3DGS "en entornos no controlados" sigue siendo notoriamente frágil. Un cuello de botella fundamental reside en el soporte local y compacto de las primitivas Gaussianas. Los objetivos fotométricos estándar dependen implícitamente del solapamiento espacial; si una desalineación severa de la cámara sitúa el objeto renderizado fuera de la huella local del objetivo, los gradientes se anulan por completo, dejando al optimizador varado. Presentamos SpectralSplats, un marco de seguimiento robusto que resuelve este problema del "gradiente que se desvanece" desplazando el objetivo de optimización del dominio espacial al dominio de la frecuencia. Al supervisar la imagen renderizada mediante un conjunto de características sinusoidales complejas globales (Momentos Espectrales), construimos una cuenca de atracción global, garantizando que exista un gradiente direccional válido hacia el objetivo en todo el dominio de la imagen, incluso cuando el solapamiento de píxeles es completamente inexistente. Para aprovechar esta cuenca global sin introduir mínimos locales periódicos asociados a las altas frecuencias, derivamos un programa de Enfriamiento de Frecuencia (Frequency Annealing) basado en primeros principios, que transiciona suavemente al optimizador desde la convexidad global hasta la alineación espacial precisa. Demostramos que SpectralSplats actúa como un reemplazo directo y transparente para las pérdidas espaciales en diversas parametrizaciones de deformación (desde MLPs hasta puntos de control dispersos), recuperando con éxito deformaciones complejas incluso desde inicializaciones severamente desalineadas donde el seguimiento estándar basado en apariencia falla catastróficamente.
English
3D Gaussian Splatting (3DGS) enables real-time, photorealistic novel view synthesis, making it a highly attractive representation for model-based video tracking. However, leveraging the differentiability of the 3DGS renderer "in the wild" remains notoriously fragile. A fundamental bottleneck lies in the compact, local support of the Gaussian primitives. Standard photometric objectives implicitly rely on spatial overlap; if severe camera misalignment places the rendered object outside the target's local footprint, gradients strictly vanish, leaving the optimizer stranded. We introduce SpectralSplats, a robust tracking framework that resolves this "vanishing gradient" problem by shifting the optimization objective from the spatial to the frequency domain. By supervising the rendered image via a set of global complex sinusoidal features (Spectral Moments), we construct a global basin of attraction, ensuring that a valid, directional gradient toward the target exists across the entire image domain, even when pixel overlap is completely nonexistent. To harness this global basin without introducing periodic local minima associated with high frequencies, we derive a principled Frequency Annealing schedule from first principles, gracefully transitioning the optimizer from global convexity to precise spatial alignment. We demonstrate that SpectralSplats acts as a seamless, drop-in replacement for spatial losses across diverse deformation parameterizations (from MLPs to sparse control points), successfully recovering complex deformations even from severely misaligned initializations where standard appearance-based tracking catastrophically fails.
PDF101March 27, 2026