ChatPaper.aiChatPaper

Heel-lichaamsgeconditioneerde egocentrische videovoorspelling

Whole-Body Conditioned Egocentric Video Prediction

June 26, 2025
Auteurs: Yutong Bai, Danny Tran, Amir Bar, Yann LeCun, Trevor Darrell, Jitendra Malik
cs.AI

Samenvatting

We trainen modellen om Ego-centrische Video's te voorspellen op basis van menselijke acties (PEVA), gegeven de vorige video en een actie die wordt weergegeven door de relatieve 3D lichaamshouding. Door te conditioneren op kinematische houdingstrajecten, gestructureerd door de hiërarchie van lichaamsgewrichten, leert ons model te simuleren hoe fysieke menselijke acties de omgeving vormen vanuit een first-person perspectief. We trainen een auto-regressieve conditionele diffusie-transformer op Nymeria, een grootschalige dataset van real-world egocentrische video's en lichaamshoudingcaptures. Daarnaast ontwerpen we een hiërarchisch evaluatieprotocol met steeds uitdagendere taken, wat een uitgebreide analyse mogelijk maakt van de voorspellings- en controlecapaciteiten van het model in een belichaamde context. Ons werk vertegenwoordigt een eerste poging om de uitdagingen aan te pakken van het modelleren van complexe real-world omgevingen en belichaamde agentgedragingen met videovoorspelling vanuit het perspectief van een mens.
English
We train models to Predict Ego-centric Video from human Actions (PEVA), given the past video and an action represented by the relative 3D body pose. By conditioning on kinematic pose trajectories, structured by the joint hierarchy of the body, our model learns to simulate how physical human actions shape the environment from a first-person point of view. We train an auto-regressive conditional diffusion transformer on Nymeria, a large-scale dataset of real-world egocentric video and body pose capture. We further design a hierarchical evaluation protocol with increasingly challenging tasks, enabling a comprehensive analysis of the model's embodied prediction and control abilities. Our work represents an initial attempt to tackle the challenges of modeling complex real-world environments and embodied agent behaviors with video prediction from the perspective of a human.
PDF111June 27, 2025