EgoPhys: Aprendizagem de Modelos Físicos Generalizáveis de Objetos Deformáveis a partir de Vídeo Egocêntrico
EgoPhys: Learning Generalizable Physics Models of Deformable Objects from Egocentric Video
June 15, 2026
Autores: Hyunjin Kim, Ri-Zhao Qiu, Guangqi Jiang, Xiaolong Wang
cs.AI
Resumo
Os humanos compreendem naturalmente a física de objetos por meio de interações cotidianas, mas prever com fidelidade dinâmicas deformáveis complexas, como materiais elásticos e tecidos, continua sendo um grande desafio para a visão computacional e a robótica. Apresentamos o EgoPhys, uma estrutura que constrói gêmeos digitais físicos deformáveis a partir de vídeo RGB egocêntrico utilizando priores generalizáveis. O EgoPhys supera as limitações dos métodos existentes, permitindo a geração controlável de gêmeos digitais deformáveis a partir de vídeos egocêntricos, destilando soluções de física inversa por objeto em um codebook compacto, possibilitando a predição de campos densos de rigidez de mola para objetos não vistos sem otimização por mola no momento do teste. Treinado com priores generalizáveis provenientes de diversas interações egocêntricas, o EgoPhys supera as linhas de base em reconstrução, predição futura e generalização zero-shot. Para apoiar o treinamento e a avaliação, selecionamos um conjunto de dados de interação egocêntrica abrangendo diversos objetos deformáveis, cenas e estilos de manipulação. Implantamos o EgoPhys em um robô xArm6 real, demonstrando que um gêmeo digital inicializado a partir de um único vídeo egocêntrico de manipulação humana pode servir como uma representação interna do mundo para auxiliar no planejamento com objetos deformáveis, destacando observações RGB egocêntricas como um caminho escalável para pipelines do real para a simulação.
English
Humans naturally understand object physics through everyday interactions, but faithfully predicting complex deformable dynamics, such as elastic materials and fabrics, remains a major challenge for computer vision and robotics. We present EgoPhys, a framework that constructs deformable physical digital twins from egocentric RGB-only video using generalizable priors. EgoPhys overcomes the limitations of existing methods to enable controllable deformable digital twin generation from egocentric videos by distilling per-object inverse-physics solutions into a compact codebook, enabling prediction of dense spring stiffness fields for unseen objects without per-spring test-time optimization. Trained with generalizable priors from diverse egocentric interactions, EgoPhys outperforms baselines in reconstruction, future prediction, and zero-shot generalization. To support training and evaluation, we curate an egocentric interaction dataset covering diverse deformable objects, scenes, and manipulation styles. We deploy EgoPhys on a real xArm6 robot, demonstrating that a digital twin initialized from a single egocentric human play video can serve as an internal world representation to aid in deformable-object planning, highlighting egocentric RGB observations as a scalable path toward real-to-sim pipelines.