UniEgoMotion : Un modèle unifié pour la reconstruction, la prévision et la génération de mouvements égocentriques
UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation
August 2, 2025
papers.authors: Chaitanya Patel, Hiroki Nakamura, Yuta Kyuragi, Kazuki Kozuka, Juan Carlos Niebles, Ehsan Adeli
cs.AI
papers.abstract
La génération et la prévision de mouvements humains égocentriques avec contexte de scène sont essentielles pour améliorer les expériences AR/VR, optimiser l'interaction humain-robot, faire progresser les technologies d'assistance et permettre des solutions de santé adaptatives en prédisant et en simulant avec précision les mouvements à partir d'une perspective à la première personne. Cependant, les méthodes existantes se concentrent principalement sur la synthèse de mouvements en troisième personne avec des contextes de scène 3D structurés, limitant ainsi leur efficacité dans des environnements égocentriques réels où le champ de vision restreint, les occlusions fréquentes et les caméras dynamiques entravent la perception de la scène. Pour combler cette lacune, nous introduisons la Génération de Mouvement Égocentrique et la Prévision de Mouvement Égocentrique, deux nouvelles tâches qui utilisent des images à la première personne pour la synthèse de mouvements conscients de la scène sans dépendre d'une scène 3D explicite. Nous proposons UniEgoMotion, un modèle de diffusion de mouvement conditionnel unifié avec une nouvelle représentation de mouvement centrée sur la tête, conçue pour les dispositifs égocentriques. La conception simple mais efficace d'UniEgoMotion prend en charge la reconstruction, la prévision et la génération de mouvements égocentriques à partir d'entrées visuelles à la première personne dans un cadre unifié. Contrairement aux travaux précédents qui négligent la sémantique de la scène, notre modèle extrait efficacement le contexte de la scène basé sur l'image pour déduire un mouvement 3D plausible. Pour faciliter l'entraînement, nous introduisons EE4D-Motion, un jeu de données à grande échelle dérivé de EgoExo4D, enrichi d'annotations de mouvement 3D pseudo-géoréférencées. UniEgoMotion atteint des performances de pointe en reconstruction de mouvement égocentrique et est le premier à générer du mouvement à partir d'une seule image égocentrique. Des évaluations approfondies démontrent l'efficacité de notre cadre unifié, établissant un nouveau standard pour la modélisation de mouvement égocentrique et ouvrant de nouvelles possibilités pour les applications égocentriques.
English
Egocentric human motion generation and forecasting with scene-context is
crucial for enhancing AR/VR experiences, improving human-robot interaction,
advancing assistive technologies, and enabling adaptive healthcare solutions by
accurately predicting and simulating movement from a first-person perspective.
However, existing methods primarily focus on third-person motion synthesis with
structured 3D scene contexts, limiting their effectiveness in real-world
egocentric settings where limited field of view, frequent occlusions, and
dynamic cameras hinder scene perception. To bridge this gap, we introduce
Egocentric Motion Generation and Egocentric Motion Forecasting, two novel tasks
that utilize first-person images for scene-aware motion synthesis without
relying on explicit 3D scene. We propose UniEgoMotion, a unified conditional
motion diffusion model with a novel head-centric motion representation tailored
for egocentric devices. UniEgoMotion's simple yet effective design supports
egocentric motion reconstruction, forecasting, and generation from first-person
visual inputs in a unified framework. Unlike previous works that overlook scene
semantics, our model effectively extracts image-based scene context to infer
plausible 3D motion. To facilitate training, we introduce EE4D-Motion, a
large-scale dataset derived from EgoExo4D, augmented with pseudo-ground-truth
3D motion annotations. UniEgoMotion achieves state-of-the-art performance in
egocentric motion reconstruction and is the first to generate motion from a
single egocentric image. Extensive evaluations demonstrate the effectiveness of
our unified framework, setting a new benchmark for egocentric motion modeling
and unlocking new possibilities for egocentric applications.