ReconPhys: Reconstrucción de Apariencia y Atributos Físicos a partir de un Único Video

Resumen

La reconstrucción de objetos no rígidos con plausibilidad física sigue siendo un desafío significativo. Los enfoques existentes aprovechan el renderizado diferenciable para optimización por escena, recuperando geometría y dinámica pero requiriendo ajustes costosos o anotación manual, lo que limita su practicidad y generalización. Para abordar esto, proponemos ReconPhys, el primer marco de trabajo de propagación directa que aprende conjuntamente la estimación de atributos físicos y la reconstrucción mediante Gaussian Splatting 3D a partir de un único video monocular. Nuestro método emplea una arquitectura de doble rama entrenada mediante una estrategia auto-supervisada, eliminando la necesidad de anotaciones físicas de referencia. Dada una secuencia de video, ReconPhys infiere simultáneamente geometría, apariencia y atributos físicos. Los experimentos en un conjunto de datos sintético a gran escala demuestran un rendimiento superior: nuestro método alcanza 21.64 PSNR en predicción futura comparado con 13.27 de los métodos de optimización state-of-the-art, mientras reduce la Distancia de Chamfer de 0.349 a 0.004. Crucialmente, ReconPhys permite inferencia rápida (<1 segundo) frente a las horas requeridas por métodos existentes, facilitando la generación rápida de recursos listos para simulación en robótica y gráficos.

English

Reconstructing non-rigid objects with physical plausibility remains a significant challenge. Existing approaches leverage differentiable rendering for per-scene optimization, recovering geometry and dynamics but requiring expensive tuning or manual annotation, which limits practicality and generalizability. To address this, we propose ReconPhys, the first feedforward framework that jointly learns physical attribute estimation and 3D Gaussian Splatting reconstruction from a single monocular video. Our method employs a dual-branch architecture trained via a self-supervised strategy, eliminating the need for ground-truth physics labels. Given a video sequence, ReconPhys simultaneously infers geometry, appearance, and physical attributes. Experiments on a large-scale synthetic dataset demonstrate superior performance: our method achieves 21.64 PSNR in future prediction compared to 13.27 by state-of-the-art optimization baselines, while reducing Chamfer Distance from 0.349 to 0.004. Crucially, ReconPhys enables fast inference (<1 second) versus hours required by existing methods, facilitating rapid generation of simulation-ready assets for robotics and graphics.

ReconPhys: Reconstrucción de Apariencia y Atributos Físicos a partir de un Único Video

ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

Resumen

Support