ChatPaper.aiChatPaper

Splannequin: Congelamiento de Secuencias del Desafío del Maniquí Monocular mediante el Esparcimiento por Doble Detección

Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting

December 4, 2025
Autores: Hao-Jen Chien, Yi-Chuan Huang, Chung-Ho Wu, Wei-Lun Chao, Yu-Lun Liu
cs.AI

Resumen

La síntesis de escenas congeladas en 3D de alta fidelidad a partir de vídeos monoculares del Mannequin Challenge (MC) constituye un problema único, distinto de la reconstrucción estándar de escenas dinámicas. En lugar de centrarnos en modelar el movimiento, nuestro objetivo es crear una escena congelada preservando estratégicamente dinámicas sutiles para permitir una selección instantánea controlada por el usuario. Para lograrlo, presentamos una aplicación novedosa del *splatting* con gaussianos dinámicos: la escena se modela de forma dinámica, lo que retiene la variación temporal cercana, y se renderiza una escena estática fijando el parámetro de tiempo del modelo. Sin embargo, en este uso, la captura monocular con supervisión temporal escasa introduce artefactos como fantasmas y desenfoque para los gaussianos que quedan sin observar o se ocluyen en instantes de tiempo con supervisión débil. Proponemos Splannequin, una regularización independiente de la arquitectura que detecta dos estados de los primitivos gaussianos, *oculto* y *defectuoso*, y aplica un anclaje temporal. Bajo un movimiento predominante de cámara hacia adelante, los estados ocultos se anclan a sus estados pasados recientes bien observados, mientras que los estados defectuosos se anclan a estados futuros con una supervisión más fuerte. Nuestro método se integra en las canalizaciones existentes de gaussianos dinámicos mediante términos de pérdida simples, no requiere cambios arquitectónicos y añade una sobrecarga nula en la inferencia. Esto se traduce en una calidad visual notablemente mejorada, permitiendo renderizados de tiempo congelado de alta fidelidad y seleccionables por el usuario, validado por una preferencia del 96% de los usuarios. Página del proyecto: https://chien90190.github.io/splannequin/
English
Synthesizing high-fidelity frozen 3D scenes from monocular Mannequin-Challenge (MC) videos is a unique problem distinct from standard dynamic scene reconstruction. Instead of focusing on modeling motion, our goal is to create a frozen scene while strategically preserving subtle dynamics to enable user-controlled instant selection. To achieve this, we introduce a novel application of dynamic Gaussian splatting: the scene is modeled dynamically, which retains nearby temporal variation, and a static scene is rendered by fixing the model's time parameter. However, under this usage, monocular capture with sparse temporal supervision introduces artifacts like ghosting and blur for Gaussians that become unobserved or occluded at weakly supervised timestamps. We propose Splannequin, an architecture-agnostic regularization that detects two states of Gaussian primitives, hidden and defective, and applies temporal anchoring. Under predominantly forward camera motion, hidden states are anchored to their recent well-observed past states, while defective states are anchored to future states with stronger supervision. Our method integrates into existing dynamic Gaussian pipelines via simple loss terms, requires no architectural changes, and adds zero inference overhead. This results in markedly improved visual quality, enabling high-fidelity, user-selectable frozen-time renderings, validated by a 96% user preference. Project page: https://chien90190.github.io/splannequin/
PDF101December 6, 2025