SCas4D: Optimización Estructural en Cascada para Mejorar la Síntesis Persistente de Nuevas Vistas en 4D
SCas4D: Structural Cascaded Optimization for Boosting Persistent 4D Novel View Synthesis
October 8, 2025
Autores: Jipeng Lyu, Jiahua Dong, Yu-Xiong Wang
cs.AI
Resumen
El modelado persistente de escenas dinámicas para el seguimiento y la síntesis de nuevas vistas sigue siendo un desafío debido a la dificultad de capturar deformaciones precisas mientras se mantiene la eficiencia computacional. Proponemos SCas4D, un marco de optimización en cascada que aprovecha patrones estructurales en el esparcimiento de Gaussianas 3D para escenas dinámicas. La idea clave es que las deformaciones del mundo real a menudo exhiben patrones jerárquicos, donde grupos de Gaussianas comparten transformaciones similares. Al refinar progresivamente las deformaciones desde un nivel grueso de partes hasta un nivel fino de puntos, SCas4D logra la convergencia en menos de 100 iteraciones por marco de tiempo y produce resultados comparables a los métodos existentes con solo una vigésima parte de las iteraciones de entrenamiento. Este enfoque también demuestra su eficacia en tareas de segmentación autosupervisada de objetos articulados, síntesis de nuevas vistas y seguimiento denso de puntos.
English
Persistent dynamic scene modeling for tracking and novel-view synthesis
remains challenging due to the difficulty of capturing accurate deformations
while maintaining computational efficiency. We propose SCas4D, a cascaded
optimization framework that leverages structural patterns in 3D Gaussian
Splatting for dynamic scenes. The key idea is that real-world deformations
often exhibit hierarchical patterns, where groups of Gaussians share similar
transformations. By progressively refining deformations from coarse part-level
to fine point-level, SCas4D achieves convergence within 100 iterations per time
frame and produces results comparable to existing methods with only
one-twentieth of the training iterations. The approach also demonstrates
effectiveness in self-supervised articulated object segmentation, novel view
synthesis, and dense point tracking tasks.