ChatPaper.aiChatPaper

Ganzkörper-bedingte egozentrische Videovorhersage

Whole-Body Conditioned Egocentric Video Prediction

June 26, 2025
Autoren: Yutong Bai, Danny Tran, Amir Bar, Yann LeCun, Trevor Darrell, Jitendra Malik
cs.AI

Zusammenfassung

Wir trainieren Modelle, um egozentrische Videos aus menschlichen Handlungen vorherzusagen (Predict Ego-centric Video from human Actions, PEVA), basierend auf dem vergangenen Video und einer Handlung, die durch die relative 3D-Körperpose dargestellt wird. Indem wir auf kinematische Posentrajektorien konditionieren, die durch die Gelenkhierarchie des Körpers strukturiert sind, lernt unser Modell, wie physische menschliche Handlungen die Umwelt aus einer Ego-Perspektive formen. Wir trainieren einen autoregressiven bedingten Diffusions-Transformer auf Nymeria, einem groß angelegten Datensatz von realen egozentrischen Videos und Körperpose-Aufnahmen. Zudem entwickeln wir ein hierarchisches Evaluierungsprotokoll mit zunehmend anspruchsvollen Aufgaben, das eine umfassende Analyse der verkörperten Vorhersage- und Steuerungsfähigkeiten des Modells ermöglicht. Unsere Arbeit stellt einen ersten Versuch dar, die Herausforderungen der Modellierung komplexer realer Umgebungen und verkörperter Agentenverhaltensweisen durch Videovorhersage aus der Perspektive eines Menschen zu bewältigen.
English
We train models to Predict Ego-centric Video from human Actions (PEVA), given the past video and an action represented by the relative 3D body pose. By conditioning on kinematic pose trajectories, structured by the joint hierarchy of the body, our model learns to simulate how physical human actions shape the environment from a first-person point of view. We train an auto-regressive conditional diffusion transformer on Nymeria, a large-scale dataset of real-world egocentric video and body pose capture. We further design a hierarchical evaluation protocol with increasingly challenging tasks, enabling a comprehensive analysis of the model's embodied prediction and control abilities. Our work represents an initial attempt to tackle the challenges of modeling complex real-world environments and embodied agent behaviors with video prediction from the perspective of a human.
PDF61June 27, 2025