ReconPhys: Rekonstruktion von Erscheinungsbild und physikalischen Eigenschaften aus einem einzelnen Video

Zusammenfassung

Die physikalisch plausible Rekonstruktion nicht-starrer Objekte bleibt eine große Herausforderung. Bestehende Ansätze nutzen differenzierbares Rendering für pro-Szene-Optimierung, um Geometrie und Dynamik zu erfassen, erfordern jedoch aufwändiges Tuning oder manuelle Annotation, was Praxistauglichkeit und Generalisierbarkeit einschränkt. Um dies zu adressieren, stellen wir ReconPhys vor, das erste vorwärtsgerichtete Framework, das physikalische Attributschätzung und 3D-Gaussian-Splatting-Rekonstruktion aus einem einzelnen monokularen Video gemeinsam erlernt. Unser Ansatz verwendet eine Dual-Branch-Architektur, die mittels einer selbstüberwachten Strategie trainiert wird und keine Ground-Truth-Physiklabels benötigt. Für eine gegebene Videosequenz inferiert ReconPhys simultan Geometrie, Erscheinungsbild und physikalische Attribute. Experimente auf einem groß angelegten synthetischen Datensatz demonstrieren überlegene Leistung: Unser Verfahren erreicht 21,64 PSNR in der Vorhersage zukünftiger Zustände gegenüber 13,27 bei state-of-the-art Optimierungs-Baselines, während die Chamfer-Distanz von 0,349 auf 0,004 reduziert wird. Entscheidend ist, dass ReconPhys schnelle Inferenz (<1 Sekunde) ermöglicht – verglichen mit Stunden bei bestehenden Methoden – und so die schnelle Generierung simulationsfertiger Assets für Robotik und Grafik erleichtert.

English

Reconstructing non-rigid objects with physical plausibility remains a significant challenge. Existing approaches leverage differentiable rendering for per-scene optimization, recovering geometry and dynamics but requiring expensive tuning or manual annotation, which limits practicality and generalizability. To address this, we propose ReconPhys, the first feedforward framework that jointly learns physical attribute estimation and 3D Gaussian Splatting reconstruction from a single monocular video. Our method employs a dual-branch architecture trained via a self-supervised strategy, eliminating the need for ground-truth physics labels. Given a video sequence, ReconPhys simultaneously infers geometry, appearance, and physical attributes. Experiments on a large-scale synthetic dataset demonstrate superior performance: our method achieves 21.64 PSNR in future prediction compared to 13.27 by state-of-the-art optimization baselines, while reducing Chamfer Distance from 0.349 to 0.004. Crucially, ReconPhys enables fast inference (<1 second) versus hours required by existing methods, facilitating rapid generation of simulation-ready assets for robotics and graphics.

ReconPhys: Rekonstruktion von Erscheinungsbild und physikalischen Eigenschaften aus einem einzelnen Video

ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

Zusammenfassung

Support