Splannequin: Congelamento de Filmagens Monoculares do Desafio do Manequim com Splatting de Dupla Detecção

Resumo

A síntese de cenas 3D congeladas de alta fidelidade a partir de vídeos monoculares do Mannequin-Challenge (MC) é um problema único, distinto da reconstrução padrão de cenas dinâmicas. Em vez de nos concentrarmos na modelação do movimento, o nosso objetivo é criar uma cena congelada, preservando estrategicamente dinâmicas subtis para permitir uma seleção instantânea controlada pelo utilizador. Para alcançar isto, introduzimos uma nova aplicação do *splatting* com Gaussianas dinâmicas: a cena é modelada dinamicamente, o que retém a variação temporal próxima, e uma cena estática é renderizada fixando o parâmetro de tempo do modelo. No entanto, neste uso, a captura monocular com supervisão temporal esparsa introduz artefactos como *ghosting* e desfoque para Gaussianas que ficam não observadas ou ocluídas em *timestamps* com fraca supervisão. Propomos o Splannequin, uma regularização agnóstica à arquitetura que deteta dois estados dos primitivos Gaussianos, ocultos e defeituosos, e aplica uma ancoragem temporal. Sob um movimento predominante da câmara para a frente, os estados ocultos são ancorados aos seus estados passados recentes bem observados, enquanto os estados defeituosos são ancorados a estados futuros com supervisão mais forte. O nosso método integra-se nos *pipelines* existentes de Gaussianas dinâmicas através de simples termos de perda, não requer alterações arquitetónicas e adiciona zero sobrecarga na inferência. Isto resulta numa qualidade visual marcadamente melhorada, permitindo renderizações de tempo congelado, de alta fidelidade e selecionáveis pelo utilizador, validadas por uma preferência de 96% dos utilizadores. Página do projeto: https://chien90190.github.io/splannequin/

English

Synthesizing high-fidelity frozen 3D scenes from monocular Mannequin-Challenge (MC) videos is a unique problem distinct from standard dynamic scene reconstruction. Instead of focusing on modeling motion, our goal is to create a frozen scene while strategically preserving subtle dynamics to enable user-controlled instant selection. To achieve this, we introduce a novel application of dynamic Gaussian splatting: the scene is modeled dynamically, which retains nearby temporal variation, and a static scene is rendered by fixing the model's time parameter. However, under this usage, monocular capture with sparse temporal supervision introduces artifacts like ghosting and blur for Gaussians that become unobserved or occluded at weakly supervised timestamps. We propose Splannequin, an architecture-agnostic regularization that detects two states of Gaussian primitives, hidden and defective, and applies temporal anchoring. Under predominantly forward camera motion, hidden states are anchored to their recent well-observed past states, while defective states are anchored to future states with stronger supervision. Our method integrates into existing dynamic Gaussian pipelines via simple loss terms, requires no architectural changes, and adds zero inference overhead. This results in markedly improved visual quality, enabling high-fidelity, user-selectable frozen-time renderings, validated by a 96% user preference. Project page: https://chien90190.github.io/splannequin/

Splannequin: Congelamento de Filmagens Monoculares do Desafio do Manequim com Splatting de Dupla Detecção

Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting

Resumo

Support