ReconPhys: Reconstrução de Aparência e Atributos Físicos a partir de um Único Vídeo

Resumo

A reconstrução de objetos não rígidos com plausibilidade física continua sendo um desafio significativo. As abordagens existentes aproveitam a renderização diferenciável para otimização por cena, recuperando geometria e dinâmica, mas exigem ajustes dispendiosos ou anotação manual, o que limita a praticidade e a generalização. Para resolver isso, propomos o ReconPhys, o primeiro *framework* *feedforward* que aprende conjuntamente a estimativa de atributos físicos e a reconstrução por *3D Gaussian Splatting* a partir de um único vídeo monocular. Nosso método emprega uma arquitetura de ramificação dupla treinada por meio de uma estratégia autossupervisionada, eliminando a necessidade de rótulos de física ground-truth. Dada uma sequência de vídeo, o ReconPhys infere simultaneamente geometria, aparência e atributos físicos. Experimentos em um conjunto de dados sintético de grande escala demonstram desempenho superior: nosso método alcança 21.64 PSNR na previsão futura em comparação com 13.27 das *baselines* de otimização state-of-the-art, enquanto reduz a Distância de Chamfer de 0.349 para 0.004. Crucialmente, o ReconPhys permite inferência rápida (<1 segundo) contra as horas exigidas pelos métodos existentes, facilitando a geração rápida de *assets* prontos para simulação para robótica e gráficos.

English

Reconstructing non-rigid objects with physical plausibility remains a significant challenge. Existing approaches leverage differentiable rendering for per-scene optimization, recovering geometry and dynamics but requiring expensive tuning or manual annotation, which limits practicality and generalizability. To address this, we propose ReconPhys, the first feedforward framework that jointly learns physical attribute estimation and 3D Gaussian Splatting reconstruction from a single monocular video. Our method employs a dual-branch architecture trained via a self-supervised strategy, eliminating the need for ground-truth physics labels. Given a video sequence, ReconPhys simultaneously infers geometry, appearance, and physical attributes. Experiments on a large-scale synthetic dataset demonstrate superior performance: our method achieves 21.64 PSNR in future prediction compared to 13.27 by state-of-the-art optimization baselines, while reducing Chamfer Distance from 0.349 to 0.004. Crucially, ReconPhys enables fast inference (<1 second) versus hours required by existing methods, facilitating rapid generation of simulation-ready assets for robotics and graphics.

ReconPhys: Reconstrução de Aparência e Atributos Físicos a partir de um Único Vídeo

ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

Resumo

Support