ReconPhys : Reconstruction de l'apparence et des attributs physiques à partir d'une vidéo unique

Résumé

La reconstruction d'objets non rigides avec une plausibilité physique demeure un défi majeur. Les approches existantes exploitent le rendu différentiable pour une optimisation par scène, reconstruisant la géométrie et la dynamique mais nécessitant un réglage coûteux ou une annotation manuelle, ce qui limite la praticité et la généralisabilité. Pour y remédier, nous proposons ReconPhys, le premier cadre feedforward qui apprend conjointement l'estimation d'attributs physiques et la reconstruction par Gaussian Splatting 3D à partir d'une vidéo monoculaire unique. Notre méthode utilise une architecture à double branche entraînée via une stratégie auto-supervisée, éliminant le besoin d'annotations physiques de référence. Étant donné une séquence vidéo, ReconPhys infère simultanément la géométrie, l'apparence et les attributs physiques. Les expériences sur un jeu de données synthétique à grande échelle démontrent des performances supérieures : notre méthode atteint 21,64 PSNR en prédiction future contre 13,27 pour les méthodes d'optimisation de l'état de l'art, tout en réduisant la distance de Chamfer de 0,349 à 0,004. Surtout, ReconPhys permet une inférence rapide (<1 seconde) contre des heures pour les méthodes existantes, facilitant la génération rapide d'assets prêts pour la simulation en robotique et en infographie.

English

Reconstructing non-rigid objects with physical plausibility remains a significant challenge. Existing approaches leverage differentiable rendering for per-scene optimization, recovering geometry and dynamics but requiring expensive tuning or manual annotation, which limits practicality and generalizability. To address this, we propose ReconPhys, the first feedforward framework that jointly learns physical attribute estimation and 3D Gaussian Splatting reconstruction from a single monocular video. Our method employs a dual-branch architecture trained via a self-supervised strategy, eliminating the need for ground-truth physics labels. Given a video sequence, ReconPhys simultaneously infers geometry, appearance, and physical attributes. Experiments on a large-scale synthetic dataset demonstrate superior performance: our method achieves 21.64 PSNR in future prediction compared to 13.27 by state-of-the-art optimization baselines, while reducing Chamfer Distance from 0.349 to 0.004. Crucially, ReconPhys enables fast inference (<1 second) versus hours required by existing methods, facilitating rapid generation of simulation-ready assets for robotics and graphics.

ReconPhys : Reconstruction de l'apparence et des attributs physiques à partir d'une vidéo unique

ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

Résumé

Support