전신 조건화 에고센트릭 비디오 예측
Whole-Body Conditioned Egocentric Video Prediction
June 26, 2025
저자: Yutong Bai, Danny Tran, Amir Bar, Yann LeCun, Trevor Darrell, Jitendra Malik
cs.AI
초록
우리는 과거 비디오와 상대적 3D 신체 자세로 표현된 동작이 주어졌을 때, 인간의 동작으로부터 에고센트릭 비디오를 예측하는 모델(PEVA)을 학습시킵니다. 신체 관절 계층 구조로 구조화된 운동학적 자세 궤적을 조건으로 하여, 우리 모델은 물리적 인간 동작이 환경을 어떻게 형성하는지를 1인칭 시점에서 시뮬레이션하는 방법을 학습합니다. 우리는 실제 세계의 에고센트릭 비디오와 신체 자세 캡처로 구성된 대규모 데이터셋인 Nymeria에서 자기회귀 조건부 확산 트랜스포머를 학습시킵니다. 또한 점점 더 도전적인 과제로 구성된 계층적 평가 프로토콜을 설계하여, 모델의 체화된 예측 및 제어 능력을 포괄적으로 분석할 수 있도록 합니다. 우리의 작업은 인간의 관점에서 복잡한 실제 세계 환경과 체화된 에이전트 행동을 비디오 예측으로 모델링하는 도전 과제를 해결하기 위한 초기 시도를 나타냅니다.
English
We train models to Predict Ego-centric Video from human Actions (PEVA), given
the past video and an action represented by the relative 3D body pose. By
conditioning on kinematic pose trajectories, structured by the joint hierarchy
of the body, our model learns to simulate how physical human actions shape the
environment from a first-person point of view. We train an auto-regressive
conditional diffusion transformer on Nymeria, a large-scale dataset of
real-world egocentric video and body pose capture. We further design a
hierarchical evaluation protocol with increasingly challenging tasks, enabling
a comprehensive analysis of the model's embodied prediction and control
abilities. Our work represents an initial attempt to tackle the challenges of
modeling complex real-world environments and embodied agent behaviors with
video prediction from the perspective of a human.