ReconPhys: Ricostruzione dell'Aspetto e degli Attributi Fisici da un Singolo Video

Abstract

La ricostruzione di oggetti non rigidi con plausibilità fisica rimane una sfida significativa. Gli approcci esistenti sfruttano il rendering differenziabile per l'ottimizzazione per singola scena, recuperando geometria e dinamica, ma richiedono costosi tuning o annotazioni manuali, limitando praticità e generalizzabilità. Per affrontare questo problema, proponiamo ReconPhys, il primo framework feedforward che apprende congiuntamente la stima degli attributi fisici e la ricostruzione tramite 3D Gaussian Splatting da un singolo video monoculare. Il nostro metodo utilizza un'architettura a doppio ramo addestrata tramite una strategia self-supervised, eliminando la necessità di etichette fisiche ground-truth. Dato una sequenza video, ReconPhys inferisce simultaneamente geometria, aspetto e attributi fisici. Esperimenti su un dataset sintetico su larga scala dimostrano prestazioni superiori: il nostro metodo raggiunge 21.64 PSNR nella predizione futura rispetto a 13.27 dei baseline di ottimizzazione state-of-the-art, riducendo allo stesso tempo la Chamfer Distance da 0.349 a 0.004. Crucialmente, ReconPhys consente un'inferenza rapida (<1 secondo) rispetto alle ore richieste dai metodi esistenti, facilitando la generazione rapida di asset pronti per la simulazione in robotica e grafica.

English

Reconstructing non-rigid objects with physical plausibility remains a significant challenge. Existing approaches leverage differentiable rendering for per-scene optimization, recovering geometry and dynamics but requiring expensive tuning or manual annotation, which limits practicality and generalizability. To address this, we propose ReconPhys, the first feedforward framework that jointly learns physical attribute estimation and 3D Gaussian Splatting reconstruction from a single monocular video. Our method employs a dual-branch architecture trained via a self-supervised strategy, eliminating the need for ground-truth physics labels. Given a video sequence, ReconPhys simultaneously infers geometry, appearance, and physical attributes. Experiments on a large-scale synthetic dataset demonstrate superior performance: our method achieves 21.64 PSNR in future prediction compared to 13.27 by state-of-the-art optimization baselines, while reducing Chamfer Distance from 0.349 to 0.004. Crucially, ReconPhys enables fast inference (<1 second) versus hours required by existing methods, facilitating rapid generation of simulation-ready assets for robotics and graphics.

ReconPhys: Ricostruzione dell'Aspetto e degli Attributi Fisici da un Singolo Video

ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

Abstract

Support