EgoPhys: Обучение обобщаемым физическим моделям деформируемых объектов по эгоцентрическому видео

Аннотация

Человек естественным образом понимает физику объектов через повседневное взаимодействие, однако точное предсказание сложной деформируемой динамики, такой как поведение эластичных материалов и тканей, остаётся серьёзной задачей для компьютерного зрения и робототехники. Мы представляем EgoPhys — фреймворк, который строит деформируемые физические цифровые двойники на основе только эгоцентрического RGB-видео, используя обобщаемые априорные знания. EgoPhys преодолевает ограничения существующих методов, обеспечивая управляемую генерацию деформируемых цифровых двойников из эгоцентрических видео за счёт дистилляции решений обратной физической задачи для каждого объекта в компактную кодовую книгу, что позволяет предсказывать поля плотности жёсткости пружин для невидимых объектов без оптимизации для каждой пружины на этапе тестирования. Обученный с использованием обобщаемых априорных знаний, полученных из разнообразных эгоцентрических взаимодействий, EgoPhys превосходит базовые методы в реконструкции, прогнозировании будущих состояний и обобщении без предварительного обучения. Для поддержки обучения и оценки мы собрали набор данных эгоцентрических взаимодействий, охватывающий разнообразные деформируемые объекты, сцены и стили манипуляции. Мы развернули EgoPhys на реальном роботе xArm6, демонстрируя, что цифровой двойник, инициализированный по одному эгоцентрическому видео игры человека, может служить внутренним представлением мира, помогающим в планировании действий с деформируемыми объектами, что подчёркивает эгоцентрические RGB-наблюдения как масштабируемый путь к конвейерам «от реальности к симуляции».

English

Humans naturally understand object physics through everyday interactions, but faithfully predicting complex deformable dynamics, such as elastic materials and fabrics, remains a major challenge for computer vision and robotics. We present EgoPhys, a framework that constructs deformable physical digital twins from egocentric RGB-only video using generalizable priors. EgoPhys overcomes the limitations of existing methods to enable controllable deformable digital twin generation from egocentric videos by distilling per-object inverse-physics solutions into a compact codebook, enabling prediction of dense spring stiffness fields for unseen objects without per-spring test-time optimization. Trained with generalizable priors from diverse egocentric interactions, EgoPhys outperforms baselines in reconstruction, future prediction, and zero-shot generalization. To support training and evaluation, we curate an egocentric interaction dataset covering diverse deformable objects, scenes, and manipulation styles. We deploy EgoPhys on a real xArm6 robot, demonstrating that a digital twin initialized from a single egocentric human play video can serve as an internal world representation to aid in deformable-object planning, highlighting egocentric RGB observations as a scalable path toward real-to-sim pipelines.