EgoPhys: Lernen von verallgemeinerbaren Physikmodellen verformbarer Objekte aus egozentrischem Video

Zusammenfassung

Menschen verstehen die Objektphysik durch alltägliche Interaktionen auf natürliche Weise, aber die zuverlässige Vorhersage komplexer deformierbarer Dynamiken, wie etwa bei elastischen Materialien und Stoffen, bleibt eine große Herausforderung für Computervision und Robotik. Wir stellen EgoPhys vor, ein Framework, das deformierbare physikalische digitale Zwillinge aus egozentrischem RGB-Video unter Verwendung generalisierbarer Priors erstellt. EgoPhys überwindet die Einschränkungen bestehender Methoden, um die steuerbare Generierung deformierbarer digitaler Zwillinge aus egozentrischen Videos zu ermöglichen, indem es objektspezifische inverse Physiklösungen in ein kompaktes Codebuch destilliert. Dies ermöglicht die Vorhersage dichter Federsteifigkeitsfelder für unbekannte Objekte ohne Optimierung pro Feder zur Testzeit. Trainiert mit generalisierbaren Priors aus verschiedenen egozentrischen Interaktionen übertrifft EgoPhys Basislinien in Rekonstruktion, Zukunftsprognose und Nullschuss-Generalisation. Zur Unterstützung von Training und Evaluation stellen wir einen egozentrischen Interaktionsdatensatz zusammen, der verschiedene deformierbare Objekte, Szenen und Manipulationsstile abdeckt. Wir setzen EgoPhys auf einem echten xArm6-Roboter ein und zeigen, dass ein digitaler Zwilling, der aus einem einzigen egozentrischen menschlichen Spielvideo initialisiert wurde, als interne Weltenrepräsentation dienen kann, um die Planung mit deformierbaren Objekten zu unterstützen. Dies unterstreicht, dass egozentrische RGB-Beobachtungen einen skalierbaren Weg zu Real-zu-Sim-Pipelines darstellen.

English

Humans naturally understand object physics through everyday interactions, but faithfully predicting complex deformable dynamics, such as elastic materials and fabrics, remains a major challenge for computer vision and robotics. We present EgoPhys, a framework that constructs deformable physical digital twins from egocentric RGB-only video using generalizable priors. EgoPhys overcomes the limitations of existing methods to enable controllable deformable digital twin generation from egocentric videos by distilling per-object inverse-physics solutions into a compact codebook, enabling prediction of dense spring stiffness fields for unseen objects without per-spring test-time optimization. Trained with generalizable priors from diverse egocentric interactions, EgoPhys outperforms baselines in reconstruction, future prediction, and zero-shot generalization. To support training and evaluation, we curate an egocentric interaction dataset covering diverse deformable objects, scenes, and manipulation styles. We deploy EgoPhys on a real xArm6 robot, demonstrating that a digital twin initialized from a single egocentric human play video can serve as an internal world representation to aid in deformable-object planning, highlighting egocentric RGB observations as a scalable path toward real-to-sim pipelines.