ChatPaper.aiChatPaper

EgoPhys: Aprendizaje de Modelos de Física Generalizables de Objetos Deformables a partir de Video Egocéntrico

EgoPhys: Learning Generalizable Physics Models of Deformable Objects from Egocentric Video

June 15, 2026
Autores: Hyunjin Kim, Ri-Zhao Qiu, Guangqi Jiang, Xiaolong Wang
cs.AI

Resumen

Los humanos comprenden de forma natural la física de los objetos a través de interacciones cotidianas, pero predecir fielmente dinámicas deformables complejas, como materiales elásticos y telas, sigue siendo un desafío importante para la visión por computadora y la robótica. Presentamos EgoPhys, un marco que construye gemelos digitales físicos deformables a partir de video egocéntrico exclusivamente RGB utilizando priors generalizables. EgoPhys supera las limitaciones de los métodos existentes para permitir la generación controlable de gemelos digitales deformables a partir de videos egocéntricos, destilando soluciones de física inversa por objeto en un codebook compacto, lo que permite la predicción de campos densos de rigidez de resortes para objetos no vistos sin optimización por resorte en tiempo de prueba. Entrenado con priors generalizables de diversas interacciones egocéntricas, EgoPhys supera a las líneas base en reconstrucción, predicción futura y generalización de cero disparos. Para apoyar el entrenamiento y la evaluación, curamos un conjunto de datos de interacción egocéntrica que cubre diversos objetos deformables, escenas y estilos de manipulación. Desplegamos EgoPhys en un robot xArm6 real, demostrando que un gemelo digital inicializado a partir de un único video de juego humano egocéntrico puede servir como representación interna del mundo para ayudar en la planificación con objetos deformables, destacando las observaciones RGB egocéntricas como un camino escalable hacia tuberías de realidad a simulación.
English
Humans naturally understand object physics through everyday interactions, but faithfully predicting complex deformable dynamics, such as elastic materials and fabrics, remains a major challenge for computer vision and robotics. We present EgoPhys, a framework that constructs deformable physical digital twins from egocentric RGB-only video using generalizable priors. EgoPhys overcomes the limitations of existing methods to enable controllable deformable digital twin generation from egocentric videos by distilling per-object inverse-physics solutions into a compact codebook, enabling prediction of dense spring stiffness fields for unseen objects without per-spring test-time optimization. Trained with generalizable priors from diverse egocentric interactions, EgoPhys outperforms baselines in reconstruction, future prediction, and zero-shot generalization. To support training and evaluation, we curate an egocentric interaction dataset covering diverse deformable objects, scenes, and manipulation styles. We deploy EgoPhys on a real xArm6 robot, demonstrating that a digital twin initialized from a single egocentric human play video can serve as an internal world representation to aid in deformable-object planning, highlighting egocentric RGB observations as a scalable path toward real-to-sim pipelines.