ChatPaper.aiChatPaper

Previsão de Vídeo Egocêntrico Condicionada ao Corpo Inteiro

Whole-Body Conditioned Egocentric Video Prediction

June 26, 2025
Autores: Yutong Bai, Danny Tran, Amir Bar, Yann LeCun, Trevor Darrell, Jitendra Malik
cs.AI

Resumo

Nós treinamos modelos para Prever Vídeo Egocêntrico a partir de Ações Humanas (PEVA), considerando o vídeo passado e uma ação representada pela pose corporal 3D relativa. Ao condicionar as trajetórias de pose cinemática, estruturadas pela hierarquia de articulações do corpo, nosso modelo aprende a simular como as ações físicas humanas moldam o ambiente a partir de um ponto de vista em primeira pessoa. Treinamos um transformador de difusão condicional autorregressivo no Nymeria, um conjunto de dados em larga escala de vídeo egocêntrico e captura de pose corporal do mundo real. Além disso, projetamos um protocolo de avaliação hierárquico com tarefas progressivamente mais desafiadoras, permitindo uma análise abrangente das habilidades de previsão e controle incorporadas do modelo. Nosso trabalho representa uma tentativa inicial de abordar os desafios de modelar ambientes complexos do mundo real e comportamentos de agentes incorporados com previsão de vídeo a partir da perspectiva de um ser humano.
English
We train models to Predict Ego-centric Video from human Actions (PEVA), given the past video and an action represented by the relative 3D body pose. By conditioning on kinematic pose trajectories, structured by the joint hierarchy of the body, our model learns to simulate how physical human actions shape the environment from a first-person point of view. We train an auto-regressive conditional diffusion transformer on Nymeria, a large-scale dataset of real-world egocentric video and body pose capture. We further design a hierarchical evaluation protocol with increasingly challenging tasks, enabling a comprehensive analysis of the model's embodied prediction and control abilities. Our work represents an initial attempt to tackle the challenges of modeling complex real-world environments and embodied agent behaviors with video prediction from the perspective of a human.
PDF111June 27, 2025