Splannequin: Einfrieren von Monokular-Mannequin-Challenge-Aufnahmen mit Dual-Detection-Splatting
Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting
December 4, 2025
papers.authors: Hao-Jen Chien, Yi-Chuan Huang, Chung-Ho Wu, Wei-Lun Chao, Yu-Lun Liu
cs.AI
papers.abstract
Die Synthese hochwertiger eingefrorener 3D-Szenen aus monokularen Mannequin-Challenge (MC)-Videos stellt ein einzigartiges Problem dar, das sich von der Standardrekonstruktion dynamischer Szenen unterscheidet. Anstatt Bewegung zu modellieren, zielt unsere Arbeit darauf ab, eine erstarrte Szene zu erzeugen und dabei subtile Dynamik strategisch zu erhalten, um eine benutzerkontrollierte Zeitauswahl zu ermöglichen. Um dies zu erreichen, führen wir eine neuartige Anwendung des dynamischen Gaussian Splatting ein: Die Szene wird dynamisch modelliert, was zeitliche Variationen in der Nähe erhält, und eine statische Szene wird durch Fixieren des Zeitparameters des Modells gerendert. Bei dieser Anwendungsweise führt jedoch die monokulare Aufnahme mit sparser zeitlicher Überwachung zu Artefakten wie Geisterbildern und Unschärfe bei Gaussians, die zu schwach überwachten Zeitpunkten verdeckt oder nicht beobachtet werden. Wir schlagen Splannequin vor, eine architektur-agnostische Regularisierung, die zwei Zustände von Gaussian-Primitiven erkennt – verborgen und defekt – und zeitliches Anchoring anwendet. Bei überwiegend vorwärts gerichteter Kamerabewegung werden verborgene Zustände an ihre kürzlich gut beobachteten Vergangenheitszustände verankert, während defekte Zustände an Zukunftszustände mit stärkerer Überwachung angeheftet werden. Unsere Methode lässt sich über einfache Loss-Terme in bestehende Dynamic-Gaussian-Pipelines integrieren, erfordert keine architektonischen Änderungen und verursacht keinen zusätzlichen Inferenz-Overhead. Dies führt zu einer deutlich verbesserten visuellen Qualität und ermöglicht hochwertige, benutzerwählbare Einfrierzeit-Renderings, was durch eine Benutzerpräferenz von 96% validiert wird. Projektseite: https://chien90190.github.io/splannequin/
English
Synthesizing high-fidelity frozen 3D scenes from monocular Mannequin-Challenge (MC) videos is a unique problem distinct from standard dynamic scene reconstruction. Instead of focusing on modeling motion, our goal is to create a frozen scene while strategically preserving subtle dynamics to enable user-controlled instant selection. To achieve this, we introduce a novel application of dynamic Gaussian splatting: the scene is modeled dynamically, which retains nearby temporal variation, and a static scene is rendered by fixing the model's time parameter. However, under this usage, monocular capture with sparse temporal supervision introduces artifacts like ghosting and blur for Gaussians that become unobserved or occluded at weakly supervised timestamps. We propose Splannequin, an architecture-agnostic regularization that detects two states of Gaussian primitives, hidden and defective, and applies temporal anchoring. Under predominantly forward camera motion, hidden states are anchored to their recent well-observed past states, while defective states are anchored to future states with stronger supervision. Our method integrates into existing dynamic Gaussian pipelines via simple loss terms, requires no architectural changes, and adds zero inference overhead. This results in markedly improved visual quality, enabling high-fidelity, user-selectable frozen-time renderings, validated by a 96% user preference. Project page: https://chien90190.github.io/splannequin/