ChatPaper.aiChatPaper

EgoPhys: 자아 중심 비디오로부터 변형체의 일반화 가능한 물리 모델 학습

EgoPhys: Learning Generalizable Physics Models of Deformable Objects from Egocentric Video

June 15, 2026
저자: Hyunjin Kim, Ri-Zhao Qiu, Guangqi Jiang, Xiaolong Wang
cs.AI

초록

인간은 일상적인 상호작용을 통해 객체 물리를 자연스럽게 이해하지만, 탄성 재료나 직물과 같은 복잡한 변형 가능 동역학을 정확하게 예측하는 것은 컴퓨터 비전과 로봇 공학에서 여전히 주요 과제로 남아있다. 본 논문에서는 일반화 가능한 사전 지식을 활용하여 자기중심적 RGB 전용 비디오로부터 변형 가능한 물리적 디지털 트윈을 구축하는 프레임워크인 EgoPhys를 제안한다. EgoPhys는 객체별 역물리 해법을 간결한 코드북으로 증류하여, 보지 못한 객체에 대해 스프링별 테스트 시간 최적화 없이 조밀한 스프링 강성 필드 예측을 가능하게 함으로써, 기존 방법의 한계를 극복하고 자기중심적 비디오로부터 제어 가능한 변형 가능 디지털 트윈 생성을 가능하게 한다. 다양한 자기중심적 상호작용으로부터 얻은 일반화 가능한 사전 지식으로 훈련된 EgoPhys는 재구성, 미래 예측 및 제로샷 일반화에서 기준선보다 우수한 성능을 보인다. 훈련 및 평가를 지원하기 위해 다양한 변형 가능 객체, 장면 및 조작 스타일을 포함하는 자기중심적 상호작용 데이터셋을 구축한다. 실제 xArm6 로봇에 EgoPhys를 배포하여, 단일 자기중심적 인간 플레이 비디오로 초기화된 디지털 트윈이 변형 가능 객체 계획을 지원하는 내부 세계 표현으로 활용될 수 있음을 입증하며, 자기중심적 RGB 관찰이 실제 환경에서 시뮬레이션으로의 확장 가능한 경로임을 강조한다.
English
Humans naturally understand object physics through everyday interactions, but faithfully predicting complex deformable dynamics, such as elastic materials and fabrics, remains a major challenge for computer vision and robotics. We present EgoPhys, a framework that constructs deformable physical digital twins from egocentric RGB-only video using generalizable priors. EgoPhys overcomes the limitations of existing methods to enable controllable deformable digital twin generation from egocentric videos by distilling per-object inverse-physics solutions into a compact codebook, enabling prediction of dense spring stiffness fields for unseen objects without per-spring test-time optimization. Trained with generalizable priors from diverse egocentric interactions, EgoPhys outperforms baselines in reconstruction, future prediction, and zero-shot generalization. To support training and evaluation, we curate an egocentric interaction dataset covering diverse deformable objects, scenes, and manipulation styles. We deploy EgoPhys on a real xArm6 robot, demonstrating that a digital twin initialized from a single egocentric human play video can serve as an internal world representation to aid in deformable-object planning, highlighting egocentric RGB observations as a scalable path toward real-to-sim pipelines.