ChatPaper.aiChatPaper

SpectralSplats: Robuste differenzierbare Verfolgung durch Spektrale Momentenüberwachung

SpectralSplats: Robust Differentiable Tracking via Spectral Moment Supervision

March 25, 2026
Autoren: Avigail Cohen Rimon, Amir Mann, Mirela Ben Chen, Or Litany
cs.AI

Zusammenfassung

3D Gaussian Splatting (3DGS) ermöglicht die Echtzeit-Synthese fotorealistischer Neuansichten und ist daher eine äußerst attraktive Repräsentation für modellbasiertes Video-Tracking. Die Nutzung der Differenzierbarkeit des 3DGS-Renderers unter realen Bedingungen ("in the wild") erweist sich jedoch als notorisch instabil. Ein grundlegender Engpass liegt in der kompakten, lokalen Unterstützung der Gauß'schen Primitive. Standardmäßige photometrische Zielfunktionen setzen implizit räumliche Überlappung voraus; wenn eine starke Kamera-Fehlausrichtung das gerenderte Objekt außerhalb des lokalen Bereichs des Ziels platziert, verschwinden die Gradienten vollständig, und der Optimierer bleibt stranden. Wir stellen SpectralSplats vor, ein robustes Tracking-Framework, das dieses "Verschwinden der Gradienten"-Problem löst, indem es die Optimierungszielstellung von der räumlichen Domäne in die Frequenzdomäne verlagert. Durch die Überwachung des gerenderten Bildes mittels eines Satzes globaler komplexer sinusförmiger Merkmale (Spektrale Momente) konstruieren wir ein globales Einzugsgebiet, das sicherstellt, dass über die gesamte Bilddomäne hinweg ein gültiger, richtungsweisender Gradient zum Ziel existiert, selbst wenn keine Pixelüberlappung vorhanden ist. Um dieses globale Einzugsgebiet zu nutzen, ohne periodische lokale Minima einzuführen, die mit hohen Frequenzen verbunden sind, leiten wir einen prinzipienbasierten Frequenz-Annealing-Fahrplan aus ersten Prinzipien ab, der den Optimierer sanft von globaler Konvexität zur präzisen räumlichen Ausrichtung überführt. Wir zeigen, dass SpectralSplats als nahtloser, direkter Ersatz für räumliche Verlustfunktionen über verschiedene Deformationsparametrisierungen hinweg (von MLPs bis zu spärlichen Kontrollpunkten) fungiert und komplexe Deformationen selbst von stark fehlausgerichteten Initialisierungen aus erfolgreich wiederherstellt, bei denen standardmäßiges, auf Erscheinungsbild basierendes Tracking katastrophal versagt.
English
3D Gaussian Splatting (3DGS) enables real-time, photorealistic novel view synthesis, making it a highly attractive representation for model-based video tracking. However, leveraging the differentiability of the 3DGS renderer "in the wild" remains notoriously fragile. A fundamental bottleneck lies in the compact, local support of the Gaussian primitives. Standard photometric objectives implicitly rely on spatial overlap; if severe camera misalignment places the rendered object outside the target's local footprint, gradients strictly vanish, leaving the optimizer stranded. We introduce SpectralSplats, a robust tracking framework that resolves this "vanishing gradient" problem by shifting the optimization objective from the spatial to the frequency domain. By supervising the rendered image via a set of global complex sinusoidal features (Spectral Moments), we construct a global basin of attraction, ensuring that a valid, directional gradient toward the target exists across the entire image domain, even when pixel overlap is completely nonexistent. To harness this global basin without introducing periodic local minima associated with high frequencies, we derive a principled Frequency Annealing schedule from first principles, gracefully transitioning the optimizer from global convexity to precise spatial alignment. We demonstrate that SpectralSplats acts as a seamless, drop-in replacement for spatial losses across diverse deformation parameterizations (from MLPs to sparse control points), successfully recovering complex deformations even from severely misaligned initializations where standard appearance-based tracking catastrophically fails.
PDF101March 27, 2026