SpectralSplats : Suivi différenciable robuste par supervision des moments spectraux
SpectralSplats: Robust Differentiable Tracking via Spectral Moment Supervision
March 25, 2026
Auteurs: Avigail Cohen Rimon, Amir Mann, Mirela Ben Chen, Or Litany
cs.AI
Résumé
Le 3D Gaussian Splatting (3DGS) permet une synthèse de vues nouvelles photoréaliste en temps réel, ce qui en fait une représentation très attractive pour le suivi vidéo basé modèle. Cependant, exploiter la différentiabilité du moteur de rendu 3DGS "en conditions réelles" reste notoirement fragile. Un goulot d'étranglement fondamental réside dans le support compact et local des primitives gaussiennes. Les objectifs photométriques standards reposent implicitement sur le chevauchement spatial ; si un mauvais alignement sévère de la caméra place l'objet rendu en dehors de l'empreinte locale de la cible, les gradients s'annulent strictement, laissant l'optimiseur bloqué. Nous présentons SpectralSplats, un cadre de suivi robuste qui résout ce problème de "gradient qui disparaît" en déplaçant l'objectif d'optimisation du domaine spatial vers le domaine fréquentiel. En supervisant l'image rendue via un ensemble de caractéristiques sinusoïdales complexes globales (Moments Spectraux), nous construisons un bassin d'attraction global, garantissant qu'un gradient valide et directionnel vers la cible existe sur l'ensemble du domaine de l'image, même lorsqu'aucun chevauchement pixel n'existe. Pour exploiter ce bassin global sans introduire de minima locaux périodiques associés aux hautes fréquences, nous dérivons un plan d'Atténuation de Fréquence (Frequency Annealing) principiel à partir des premiers principes, faisant passer progressivement l'optimiseur d'une convexité globale à un alignement spatial précis. Nous démontrons que SpectralSplats agit comme un remplacement transparent et direct des pertes spatiales pour diverses paramétrisations de déformation (des MLPs aux points de contrôle épars), réussissant à retrouver des déformations complexes même à partir d'initialisations sévèrement désalignées où le suivi standard basé sur l'apparence échoue de manière catastrophique.
English
3D Gaussian Splatting (3DGS) enables real-time, photorealistic novel view synthesis, making it a highly attractive representation for model-based video tracking. However, leveraging the differentiability of the 3DGS renderer "in the wild" remains notoriously fragile. A fundamental bottleneck lies in the compact, local support of the Gaussian primitives. Standard photometric objectives implicitly rely on spatial overlap; if severe camera misalignment places the rendered object outside the target's local footprint, gradients strictly vanish, leaving the optimizer stranded. We introduce SpectralSplats, a robust tracking framework that resolves this "vanishing gradient" problem by shifting the optimization objective from the spatial to the frequency domain. By supervising the rendered image via a set of global complex sinusoidal features (Spectral Moments), we construct a global basin of attraction, ensuring that a valid, directional gradient toward the target exists across the entire image domain, even when pixel overlap is completely nonexistent. To harness this global basin without introducing periodic local minima associated with high frequencies, we derive a principled Frequency Annealing schedule from first principles, gracefully transitioning the optimizer from global convexity to precise spatial alignment. We demonstrate that SpectralSplats acts as a seamless, drop-in replacement for spatial losses across diverse deformation parameterizations (from MLPs to sparse control points), successfully recovering complex deformations even from severely misaligned initializations where standard appearance-based tracking catastrophically fails.