UniEgoMotion: Een Geïntegreerd Model voor Egocentrische Bewegingsreconstructie, Voorspelling en Generatie
UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation
August 2, 2025
Auteurs: Chaitanya Patel, Hiroki Nakamura, Yuta Kyuragi, Kazuki Kozuka, Juan Carlos Niebles, Ehsan Adeli
cs.AI
Samenvatting
Egocentrische menselijke bewegingsgeneratie en -voorspelling met scènecontext is cruciaal voor het verbeteren van AR/VR-ervaringen, het optimaliseren van mens-robotinteractie, het bevorderen van ondersteunende technologieën en het mogelijk maken van adaptieve gezondheidsoplossingen door beweging nauwkeurig te voorspellen en te simuleren vanuit een first-person perspectief. Bestaande methoden richten zich echter voornamelijk op third-person bewegingssynthese met gestructureerde 3D-scènecontexten, wat hun effectiviteit beperkt in realistische egocentrische omgevingen waar een beperkt gezichtsveld, frequente occlusies en dynamische camera’s de scèneperceptie belemmeren. Om deze kloof te overbruggen, introduceren we Egocentrische Bewegingsgeneratie en Egocentrische Bewegingsvoorspelling, twee nieuwe taken die first-person beelden gebruiken voor scènebewuste bewegingssynthese zonder te vertrouwen op expliciete 3D-scènes. We presenteren UniEgoMotion, een geconditioneerd motion diffusion-model met een nieuwe head-centrische bewegingsrepresentatie die is afgestemd op egocentrische apparaten. Het eenvoudige maar effectieve ontwerp van UniEgoMotion ondersteunt egocentrische bewegingsreconstructie, -voorspelling en -generatie vanuit first-person visuele invoer in een uniform raamwerk. In tegenstelling tot eerdere werken die scènesemantiek negeren, extraheert ons model effectief beeldgebaseerde scènecontext om plausibele 3D-beweging af te leiden. Om de training te vergemakkelijken, introduceren we EE4D-Motion, een grootschalige dataset afgeleid van EgoExo4D, aangevuld met pseudo-ground-truth 3D-bewegingsannotaties. UniEgoMotion behaalt state-of-the-art prestaties in egocentrische bewegingsreconstructie en is de eerste die beweging genereert vanuit een enkel egocentrisch beeld. Uitgebreide evaluaties demonstreren de effectiviteit van ons uniforme raamwerk, wat een nieuwe standaard zet voor egocentrische bewegingsmodellering en nieuwe mogelijkheden ontsluit voor egocentrische toepassingen.
English
Egocentric human motion generation and forecasting with scene-context is
crucial for enhancing AR/VR experiences, improving human-robot interaction,
advancing assistive technologies, and enabling adaptive healthcare solutions by
accurately predicting and simulating movement from a first-person perspective.
However, existing methods primarily focus on third-person motion synthesis with
structured 3D scene contexts, limiting their effectiveness in real-world
egocentric settings where limited field of view, frequent occlusions, and
dynamic cameras hinder scene perception. To bridge this gap, we introduce
Egocentric Motion Generation and Egocentric Motion Forecasting, two novel tasks
that utilize first-person images for scene-aware motion synthesis without
relying on explicit 3D scene. We propose UniEgoMotion, a unified conditional
motion diffusion model with a novel head-centric motion representation tailored
for egocentric devices. UniEgoMotion's simple yet effective design supports
egocentric motion reconstruction, forecasting, and generation from first-person
visual inputs in a unified framework. Unlike previous works that overlook scene
semantics, our model effectively extracts image-based scene context to infer
plausible 3D motion. To facilitate training, we introduce EE4D-Motion, a
large-scale dataset derived from EgoExo4D, augmented with pseudo-ground-truth
3D motion annotations. UniEgoMotion achieves state-of-the-art performance in
egocentric motion reconstruction and is the first to generate motion from a
single egocentric image. Extensive evaluations demonstrate the effectiveness of
our unified framework, setting a new benchmark for egocentric motion modeling
and unlocking new possibilities for egocentric applications.