EgoPhys: Leren van generaliseerbare fysicamodellen van vervormbare objecten vanuit egocentrische video
EgoPhys: Learning Generalizable Physics Models of Deformable Objects from Egocentric Video
June 15, 2026
Auteurs: Hyunjin Kim, Ri-Zhao Qiu, Guangqi Jiang, Xiaolong Wang
cs.AI
Samenvatting
Mensen begrijpen van nature de fysica van objecten door alledaagse interacties, maar het getrouw voorspellen van complexe vervormbare dynamica, zoals elastische materialen en stoffen, blijft een grote uitdaging voor computer vision en robotica. We presenteren EgoPhys, een raamwerk dat vervormbare fysieke digitale tweelingen construeert uit egocentrische RGB-only video met behulp van generaliseerbare voorkennis. EgoPhys overwint de beperkingen van bestaande methoden om beheersbare generatie van vervormbare digitale tweelingen uit egocentrische video's mogelijk te maken door per-object inverse-fysica oplossingen te distilleren in een compact codeboek, waardoor voorspelling van dichte veerstijfheidsvelden voor ongeziene objecten mogelijk wordt zonder per-veer optimalisatie tijdens de test. Getraind met generaliseerbare voorkennis uit diverse egocentrische interacties, presteert EgoPhys beter dan basislijnen in reconstructie, toekomstvoorspelling en zero-shot generalisatie. Om training en evaluatie te ondersteunen, stellen we een egocentrische interactiedataset samen die diverse vervormbare objecten, scènes en manipulatiestijlen omvat. We implementeren EgoPhys op een echte xArm6-robot en tonen aan dat een digitale tweeling, geïnitialiseerd vanuit een enkele egocentrische menselijke speelvideo, kan dienen als een interne wereldrepresentatie om te helpen bij planning met vervormbare objecten, wat egocentrische RGB-waarnemingen benadrukt als een schaalbare weg naar real-to-sim pijplijnen.
English
Humans naturally understand object physics through everyday interactions, but faithfully predicting complex deformable dynamics, such as elastic materials and fabrics, remains a major challenge for computer vision and robotics. We present EgoPhys, a framework that constructs deformable physical digital twins from egocentric RGB-only video using generalizable priors. EgoPhys overcomes the limitations of existing methods to enable controllable deformable digital twin generation from egocentric videos by distilling per-object inverse-physics solutions into a compact codebook, enabling prediction of dense spring stiffness fields for unseen objects without per-spring test-time optimization. Trained with generalizable priors from diverse egocentric interactions, EgoPhys outperforms baselines in reconstruction, future prediction, and zero-shot generalization. To support training and evaluation, we curate an egocentric interaction dataset covering diverse deformable objects, scenes, and manipulation styles. We deploy EgoPhys on a real xArm6 robot, demonstrating that a digital twin initialized from a single egocentric human play video can serve as an internal world representation to aid in deformable-object planning, highlighting egocentric RGB observations as a scalable path toward real-to-sim pipelines.