ChatPaper.aiChatPaper

Splannequin : Figer des séquences Monocular Mannequin-Challenge par éclaboussure à double détection

Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting

December 4, 2025
papers.authors: Hao-Jen Chien, Yi-Chuan Huang, Chung-Ho Wu, Wei-Lun Chao, Yu-Lun Liu
cs.AI

papers.abstract

La synthèse de scènes 3D figées de haute fidélité à partir de vidéos monoscopiques du défi Mannequin Challenge (MC) constitue un problème unique, distinct de la reconstruction standard de scènes dynamiques. Plutôt que de modéliser le mouvement, notre objectif est de créer une scène figée tout en préservant stratégiquement des dynamiques subtiles pour permettre une sélection instantanée contrôlée par l'utilisateur. Pour y parvenir, nous introduisons une nouvelle application du *splatting* de Gaussiennes dynamiques : la scène est modélisée dynamiquement, ce qui conserve les variations temporelles proches, et une scène statique est rendue en fixant le paramètre temporel du modèle. Cependant, dans ce cadre, une capture monoscopique avec une supervision temporelle éparse introduit des artefacts comme des fantômes et du flou pour les Gaussiennes qui deviennent non observées ou occultées à des instants faiblement supervisés. Nous proposons Splannequin, une régularisation agnostique à l'architecture qui détecte deux états des primitives Gaussiennes, caché et défectueux, et applique un ancrage temporel. Sous un mouvement principalement vers l'avant de la caméra, les états cachés sont ancrés à leurs états passés récents bien observés, tandis que les états défectueux sont ancrés à des états futurs avec une supervision plus forte. Notre méthode s'intègre aux pipelines existants de Gaussiennes dynamiques via de simples termes de perte, ne nécessite aucune modification architecturale et n'ajoute aucune surcharge à l'inférence. Cela se traduit par une qualité visuelle nettement améliorée, permettant des rendus à instant figé de haute fidélité et sélectionnables par l'utilisateur, validés par une préférence utilisateur de 96%. Page du projet : https://chien90190.github.io/splannequin/
English
Synthesizing high-fidelity frozen 3D scenes from monocular Mannequin-Challenge (MC) videos is a unique problem distinct from standard dynamic scene reconstruction. Instead of focusing on modeling motion, our goal is to create a frozen scene while strategically preserving subtle dynamics to enable user-controlled instant selection. To achieve this, we introduce a novel application of dynamic Gaussian splatting: the scene is modeled dynamically, which retains nearby temporal variation, and a static scene is rendered by fixing the model's time parameter. However, under this usage, monocular capture with sparse temporal supervision introduces artifacts like ghosting and blur for Gaussians that become unobserved or occluded at weakly supervised timestamps. We propose Splannequin, an architecture-agnostic regularization that detects two states of Gaussian primitives, hidden and defective, and applies temporal anchoring. Under predominantly forward camera motion, hidden states are anchored to their recent well-observed past states, while defective states are anchored to future states with stronger supervision. Our method integrates into existing dynamic Gaussian pipelines via simple loss terms, requires no architectural changes, and adds zero inference overhead. This results in markedly improved visual quality, enabling high-fidelity, user-selectable frozen-time renderings, validated by a 96% user preference. Project page: https://chien90190.github.io/splannequin/
PDF101December 6, 2025