ReconPhys: Het reconstrueren van uiterlijk en fysieke eigenschappen vanuit een enkele video

Samenvatting

Het reconstrueren van niet-rigide objecten met fysieke plausibiliteit blijft een aanzienlijke uitdaging. Bestaande methodes benutten differentieerbaar renderen voor optimalisatie per scène, waarbij geometrie en dynamiek worden hersteld, maar ze vereisen dure afstemming of handmatige annotatie, wat de praktische toepasbaarheid en generaliseerbaarheid beperkt. Om dit aan te pakken, stellen we ReconPhys voor: het eerste feedforward-raamwerk dat gezamenlijk fysieke attribuutschatting en 3D Gaussian Splatting-reconstructie leert uit een enkele monocular video. Onze methode gebruikt een dual-branch-architectuur die wordt getraind via een zelfgesuperviseerde strategie, waardoor de noodzaak van grondwaarheid-fysica-labels wordt geëlimineerd. Gegeven een videosequentie inferreert ReconPhys gelijktijdig geometrie, uiterlijk en fysieke attributen. Experimenten op een grootschalige synthetische dataset tonen superieure prestaties: onze methode behaalt 21.64 PSNR in toekomstvoorspelling vergeleken met 13.27 van state-of-the-art optimalisatie-baselines, terwijl de Chamfer-afstand wordt gereduceerd van 0.349 naar 0.004. Cruciaal is dat ReconPhys snelle inferentie (<1 seconde) mogelijk maakt tegenover de uren die bestaande methodes vereisen, wat de snelle generatie van simulatieklare assets voor robotica en graphics vergemakkelijkt.

English

Reconstructing non-rigid objects with physical plausibility remains a significant challenge. Existing approaches leverage differentiable rendering for per-scene optimization, recovering geometry and dynamics but requiring expensive tuning or manual annotation, which limits practicality and generalizability. To address this, we propose ReconPhys, the first feedforward framework that jointly learns physical attribute estimation and 3D Gaussian Splatting reconstruction from a single monocular video. Our method employs a dual-branch architecture trained via a self-supervised strategy, eliminating the need for ground-truth physics labels. Given a video sequence, ReconPhys simultaneously infers geometry, appearance, and physical attributes. Experiments on a large-scale synthetic dataset demonstrate superior performance: our method achieves 21.64 PSNR in future prediction compared to 13.27 by state-of-the-art optimization baselines, while reducing Chamfer Distance from 0.349 to 0.004. Crucially, ReconPhys enables fast inference (<1 second) versus hours required by existing methods, facilitating rapid generation of simulation-ready assets for robotics and graphics.

ReconPhys: Het reconstrueren van uiterlijk en fysieke eigenschappen vanuit een enkele video

ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

Samenvatting

Support