EgoPhys : Apprentissage de modèles physiques généralisables d'objets déformables à partir de vidéos égocentriques

Résumé

Les humains comprennent naturellement la physique des objets à travers leurs interactions quotidiennes, mais prédire avec exactitude les dynamiques déformables complexes, telles que celles des matériaux élastiques et des tissus, demeure un défi majeur pour la vision par ordinateur et la robotique. Nous présentons EgoPhys, un cadre qui construit des jumeaux numériques physiques déformables à partir de vidéos égocentriques en RVB uniquement, en utilisant des a priori généralisables. EgoPhys surmonte les limites des méthodes existantes pour permettre la génération contrôlable de jumeaux numériques déformables à partir de vidéos égocentriques en distillant les solutions de physique inverse propres à chaque objet dans un dictionnaire de codes compact, ce qui permet de prédire des champs denses de raideur de ressorts pour des objets jamais vus, sans nécessiter d'optimisation par ressort lors du test. Entraîné avec des a priori généralisables issus de diverses interactions égocentriques, EgoPhys surpasse les méthodes de référence en matière de reconstruction, de prédiction future et de généralisation sans ajustement. Pour soutenir l'entraînement et l'évaluation, nous constituons un jeu de données d'interactions égocentriques couvrant divers objets déformables, scènes et styles de manipulation. Nous déployons EgoPhys sur un véritable robot xArm6, démontrant qu'un jumeau numérique initialisé à partir d'une seule vidéo de jeu humain égocentrique peut servir de représentation interne du monde pour faciliter la planification avec des objets déformables, mettant en évidence les observations RVB égocentriques comme une voie scalable vers des pipelines du réel au simulé.

English

Humans naturally understand object physics through everyday interactions, but faithfully predicting complex deformable dynamics, such as elastic materials and fabrics, remains a major challenge for computer vision and robotics. We present EgoPhys, a framework that constructs deformable physical digital twins from egocentric RGB-only video using generalizable priors. EgoPhys overcomes the limitations of existing methods to enable controllable deformable digital twin generation from egocentric videos by distilling per-object inverse-physics solutions into a compact codebook, enabling prediction of dense spring stiffness fields for unseen objects without per-spring test-time optimization. Trained with generalizable priors from diverse egocentric interactions, EgoPhys outperforms baselines in reconstruction, future prediction, and zero-shot generalization. To support training and evaluation, we curate an egocentric interaction dataset covering diverse deformable objects, scenes, and manipulation styles. We deploy EgoPhys on a real xArm6 robot, demonstrating that a digital twin initialized from a single egocentric human play video can serve as an internal world representation to aid in deformable-object planning, highlighting egocentric RGB observations as a scalable path toward real-to-sim pipelines.