Previsione Video Egocentrica Condizionata a Corpo Intero

Abstract

Addestriamo modelli per Prevedere Video Ego-centrici dalle Azioni Umane (PEVA), dati il video passato e un'azione rappresentata dalla posa corporea 3D relativa. Condizionando sulle traiettorie cinematiche della posa, strutturate dalla gerarchia articolare del corpo, il nostro modello impara a simulare come le azioni fisiche umane modellano l'ambiente da un punto di vista in prima persona. Addestriamo un trasformatore diffusivo condizionale auto-regressivo su Nymeria, un dataset su larga scala di video ego-centrici e acquisizione di pose corporee del mondo reale. Progettiamo inoltre un protocollo di valutazione gerarchico con compiti progressivamente più impegnativi, consentendo un'analisi completa delle capacità di previsione e controllo incarnato del modello. Il nostro lavoro rappresenta un primo tentativo di affrontare le sfide della modellazione di ambienti complessi del mondo reale e dei comportamenti degli agenti incarnati con la previsione video dal punto di vista di un essere umano.

English

We train models to Predict Ego-centric Video from human Actions (PEVA), given the past video and an action represented by the relative 3D body pose. By conditioning on kinematic pose trajectories, structured by the joint hierarchy of the body, our model learns to simulate how physical human actions shape the environment from a first-person point of view. We train an auto-regressive conditional diffusion transformer on Nymeria, a large-scale dataset of real-world egocentric video and body pose capture. We further design a hierarchical evaluation protocol with increasingly challenging tasks, enabling a comprehensive analysis of the model's embodied prediction and control abilities. Our work represents an initial attempt to tackle the challenges of modeling complex real-world environments and embodied agent behaviors with video prediction from the perspective of a human.

Previsione Video Egocentrica Condizionata a Corpo Intero

Whole-Body Conditioned Egocentric Video Prediction

Abstract

Support