SCas4D: Ottimizzazione Strutturale a Cascata per Potenziare la Sintesi Persistente di Nuove Visualizzazioni 4D
SCas4D: Structural Cascaded Optimization for Boosting Persistent 4D Novel View Synthesis
October 8, 2025
Autori: Jipeng Lyu, Jiahua Dong, Yu-Xiong Wang
cs.AI
Abstract
La modellizzazione persistente di scene dinamiche per il tracciamento e la sintesi di nuove visualizzazioni rimane una sfida a causa della difficoltà di catturare deformazioni accurate mantenendo al contempo l'efficienza computazionale. Proponiamo SCas4D, un framework di ottimizzazione a cascata che sfrutta i modelli strutturali nello Splatting Gaussiano 3D per scene dinamiche. L'idea chiave è che le deformazioni nel mondo reale spesso presentano modelli gerarchici, in cui gruppi di Gaussiane condividono trasformazioni simili. Affinando progressivamente le deformazioni da un livello grossolano a livello di parti fino a un livello fine a livello di punti, SCas4D raggiunge la convergenza entro 100 iterazioni per fotogramma e produce risultati comparabili ai metodi esistenti con solo un ventesimo delle iterazioni di addestramento. L'approccio dimostra inoltre efficacia nella segmentazione auto-supervisionata di oggetti articolati, nella sintesi di nuove visualizzazioni e nelle attività di tracciamento denso dei punti.
English
Persistent dynamic scene modeling for tracking and novel-view synthesis
remains challenging due to the difficulty of capturing accurate deformations
while maintaining computational efficiency. We propose SCas4D, a cascaded
optimization framework that leverages structural patterns in 3D Gaussian
Splatting for dynamic scenes. The key idea is that real-world deformations
often exhibit hierarchical patterns, where groups of Gaussians share similar
transformations. By progressively refining deformations from coarse part-level
to fine point-level, SCas4D achieves convergence within 100 iterations per time
frame and produces results comparable to existing methods with only
one-twentieth of the training iterations. The approach also demonstrates
effectiveness in self-supervised articulated object segmentation, novel view
synthesis, and dense point tracking tasks.