Splannequin: 単眼マネキンチャレンジ映像のデュアル検出スプラッティングによる凍結
Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting
December 4, 2025
著者: Hao-Jen Chien, Yi-Chuan Huang, Chung-Ho Wu, Wei-Lun Chao, Yu-Lun Liu
cs.AI
要旨
単眼マネキンチャレンジ(MC)動画から高精細な凍結3Dシーンを合成することは、標準的な動的シーン再構築とは異なる独自の問題である。我々の目標は、動きのモデリングに注力するのではなく、凍結したシーンを作成しつつ、ユーザー制御による瞬間選択を可能にするために、微妙なダイナミクスを戦略的に保持することである。これを実現するため、我々は動的ガウススプラッティングの新たな応用法を提案する:シーンは動的にモデル化され(近傍の時間的変動を保持)、モデルの時間パラメータを固定することで静的なシーンがレンダリングされる。しかし、この使用法において、時間的な教師信号が疎な単眼撮影では、教師信号が弱いタイムスタンプで観測されなくなったり遮蔽されたりするガウシアンに、ゴーストやぼけなどのアーティファクトが生じる。我々は、Splannequin を提案する。これはアーキテクチャに依存しない正則化手法であり、ガウシアンプリミティブの「隠れ状態」と「欠損状態」という2つの状態を検出し、時間的アンカリングを適用する。主に前方へのカメラ運動が支配的な条件下では、隠れ状態は最近のよく観測された過去の状態に、欠損状態はより強い教師信号が得られる未来の状態に、それぞれアンカリングされる。本手法は、単純な損失項を介して既存の動的ガウシアンパイプラインに統合可能であり、アーキテクチャの変更を必要とせず、推論時のオーバーヘッドもゼロである。その結果、視覚品質が顕著に向上し、高精細でユーザーが選択可能な凍結時間レンダリングを実現し、96%のユーザー選好度によって検証された。プロジェクトページ: https://chien90190.github.io/splannequin/
English
Synthesizing high-fidelity frozen 3D scenes from monocular Mannequin-Challenge (MC) videos is a unique problem distinct from standard dynamic scene reconstruction. Instead of focusing on modeling motion, our goal is to create a frozen scene while strategically preserving subtle dynamics to enable user-controlled instant selection. To achieve this, we introduce a novel application of dynamic Gaussian splatting: the scene is modeled dynamically, which retains nearby temporal variation, and a static scene is rendered by fixing the model's time parameter. However, under this usage, monocular capture with sparse temporal supervision introduces artifacts like ghosting and blur for Gaussians that become unobserved or occluded at weakly supervised timestamps. We propose Splannequin, an architecture-agnostic regularization that detects two states of Gaussian primitives, hidden and defective, and applies temporal anchoring. Under predominantly forward camera motion, hidden states are anchored to their recent well-observed past states, while defective states are anchored to future states with stronger supervision. Our method integrates into existing dynamic Gaussian pipelines via simple loss terms, requires no architectural changes, and adds zero inference overhead. This results in markedly improved visual quality, enabling high-fidelity, user-selectable frozen-time renderings, validated by a 96% user preference. Project page: https://chien90190.github.io/splannequin/