Splannequin: Заморозка моноскопических видеозаписей Mannequin Challenge с помощью двойного детектирующего сплаттинга
Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting
December 4, 2025
Авторы: Hao-Jen Chien, Yi-Chuan Huang, Chung-Ho Wu, Wei-Lun Chao, Yu-Lun Liu
cs.AI
Аннотация
Синтез высококачественных замороженных 3D-сцен из монокулярных видео Mannequin-Challenge (MC) представляет собой уникальную задачу, отличную от стандартной реконструкции динамических сцен. Вместо моделирования движения наша цель — создать статичную сцену, стратегически сохраняя при этом тонкие динамические элементы, чтобы обеспечить возможность мгновенного выбора времени пользователем. Для достижения этой цели мы представляем новое применение динамического сплайнинга Гаусса: сцена моделируется динамически, что сохраняет временные вариации на соседних кадрах, а статичная сцена рендерится путем фиксации временного параметра модели. Однако при таком подходе монокулярная съемка с разреженным временным супервизией приводит к артефактам, таким как шлейфы и размытие, для гауссиан, которые становятся ненаблюдаемыми или перекрытыми в слабо супервизируемых временных точках. Мы предлагаем Splannequin, архитектурно-агностичную регуляризацию, которая обнаруживает два состояния гауссовых примитивов — скрытое и дефектное — и применяет временное якорение. При преимущественно прямолинейном движении камеры скрытые состояния якорятся к их недавним хорошо наблюдаемым прошлым состояниям, в то время как дефектные состояния якорятся к будущим состояниям с более сильным супервизией. Наш метод интегрируется в существующие конвейеры динамических гауссиан с помощью простых функций потерь, не требует изменений архитектуры и не добавляет затрат на вывод. Это приводит к значительному улучшению визуального качества, позволяя получать высококачественные, выбираемые пользователем рендеры с замороженным временем, что подтверждено 96% предпочтением пользователей. Страница проекта: https://chien90190.github.io/splannequin/
English
Synthesizing high-fidelity frozen 3D scenes from monocular Mannequin-Challenge (MC) videos is a unique problem distinct from standard dynamic scene reconstruction. Instead of focusing on modeling motion, our goal is to create a frozen scene while strategically preserving subtle dynamics to enable user-controlled instant selection. To achieve this, we introduce a novel application of dynamic Gaussian splatting: the scene is modeled dynamically, which retains nearby temporal variation, and a static scene is rendered by fixing the model's time parameter. However, under this usage, monocular capture with sparse temporal supervision introduces artifacts like ghosting and blur for Gaussians that become unobserved or occluded at weakly supervised timestamps. We propose Splannequin, an architecture-agnostic regularization that detects two states of Gaussian primitives, hidden and defective, and applies temporal anchoring. Under predominantly forward camera motion, hidden states are anchored to their recent well-observed past states, while defective states are anchored to future states with stronger supervision. Our method integrates into existing dynamic Gaussian pipelines via simple loss terms, requires no architectural changes, and adds zero inference overhead. This results in markedly improved visual quality, enabling high-fidelity, user-selectable frozen-time renderings, validated by a 96% user preference. Project page: https://chien90190.github.io/splannequin/