ReconPhys: Восстановление внешнего вида и физических атрибутов по одному видео

Аннотация

Восстановление нежестких объектов с физической правдоподобностью остается серьезной проблемой. Существующие подходы используют дифференцируемый рендеринг для оптимизации отдельной сцены, восстанавливая геометрию и динамику, но требуют трудоемкой настройки или ручной разметки, что ограничивает практическую применимость и обобщаемость. Для решения этой проблемы мы предлагаем ReconPhys — первую прямую (feedforward) архитектуру, которая совместно обучается оценке физических атрибутов и реконструкции методом 3D Gaussian Splatting на основе одного монохромного видео. Наш метод использует двухветвевую архитектуру, обучаемую по самодостаточной стратегии, что исключает необходимость в размеченных данных по физике. Для заданной видеопоследовательности ReconPhys одновременно восстанавливает геометрию, внешний вид и физические атрибуты. Эксперименты на крупном синтетическом наборе данных демонстрируют превосходную производительность: наш метод достигает PSNR 21.64 при предсказании будущих кадров против 13.27 у современных оптимизационных методов, одновременно уменьшая расстояние Чемфера с 0.349 до 0.004. Ключевым преимуществом является скорость работы ReconPhys (<1 секунды) против часов у существующих методов, что позволяет быстро создавать ресурсы, готовые для симуляции в робототехнике и компьютерной графике.

English

Reconstructing non-rigid objects with physical plausibility remains a significant challenge. Existing approaches leverage differentiable rendering for per-scene optimization, recovering geometry and dynamics but requiring expensive tuning or manual annotation, which limits practicality and generalizability. To address this, we propose ReconPhys, the first feedforward framework that jointly learns physical attribute estimation and 3D Gaussian Splatting reconstruction from a single monocular video. Our method employs a dual-branch architecture trained via a self-supervised strategy, eliminating the need for ground-truth physics labels. Given a video sequence, ReconPhys simultaneously infers geometry, appearance, and physical attributes. Experiments on a large-scale synthetic dataset demonstrate superior performance: our method achieves 21.64 PSNR in future prediction compared to 13.27 by state-of-the-art optimization baselines, while reducing Chamfer Distance from 0.349 to 0.004. Crucially, ReconPhys enables fast inference (<1 second) versus hours required by existing methods, facilitating rapid generation of simulation-ready assets for robotics and graphics.

ReconPhys: Восстановление внешнего вида и физических атрибутов по одному видео

ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

Аннотация

Support