UniEgoMotion: Un Modello Unificato per la Ricostruzione, Previsione e Generazione del Movimento Egocentrico

Abstract

La generazione e la previsione del movimento umano egocentrico con contesto scenico è cruciale per migliorare le esperienze di realtà aumentata/virtuale, ottimizzare l'interazione uomo-robot, avanzare le tecnologie assistive e abilitare soluzioni sanitarie adattive, prevedendo e simulando accuratamente il movimento da una prospettiva in prima persona. Tuttavia, i metodi esistenti si concentrano principalmente sulla sintesi del movimento in terza persona con contesti scenici 3D strutturati, limitando la loro efficacia in contesti egocentrici reali, dove il campo visivo ridotto, le frequenti occlusioni e le telecamere dinamiche ostacolano la percezione della scena. Per colmare questa lacuna, introduciamo la Generazione del Movimento Egocentrico e la Previsione del Movimento Egocentrico, due nuovi compiti che utilizzano immagini in prima persona per la sintesi del movimento consapevole della scena senza fare affidamento su una rappresentazione 3D esplicita. Proponiamo UniEgoMotion, un modello di diffusione condizionale del movimento unificato con una nuova rappresentazione del movimento centrata sulla testa, progettata per dispositivi egocentrici. Il design semplice ma efficace di UniEgoMotion supporta la ricostruzione, la previsione e la generazione del movimento egocentrico da input visivi in prima persona in un framework unificato. A differenza dei lavori precedenti che trascurano la semantica della scena, il nostro modello estrae efficacemente il contesto scenico basato su immagini per inferire un movimento 3D plausibile. Per facilitare l'addestramento, introduciamo EE4D-Motion, un dataset su larga scala derivato da EgoExo4D, arricchito con annotazioni pseudo-ground-truth del movimento 3D. UniEgoMotion raggiunge prestazioni all'avanguardia nella ricostruzione del movimento egocentrico ed è il primo a generare movimento da una singola immagine egocentrica. Valutazioni estensive dimostrano l'efficacia del nostro framework unificato, stabilendo un nuovo benchmark per la modellazione del movimento egocentrico e aprendo nuove possibilità per applicazioni egocentriche.

English

Egocentric human motion generation and forecasting with scene-context is crucial for enhancing AR/VR experiences, improving human-robot interaction, advancing assistive technologies, and enabling adaptive healthcare solutions by accurately predicting and simulating movement from a first-person perspective. However, existing methods primarily focus on third-person motion synthesis with structured 3D scene contexts, limiting their effectiveness in real-world egocentric settings where limited field of view, frequent occlusions, and dynamic cameras hinder scene perception. To bridge this gap, we introduce Egocentric Motion Generation and Egocentric Motion Forecasting, two novel tasks that utilize first-person images for scene-aware motion synthesis without relying on explicit 3D scene. We propose UniEgoMotion, a unified conditional motion diffusion model with a novel head-centric motion representation tailored for egocentric devices. UniEgoMotion's simple yet effective design supports egocentric motion reconstruction, forecasting, and generation from first-person visual inputs in a unified framework. Unlike previous works that overlook scene semantics, our model effectively extracts image-based scene context to infer plausible 3D motion. To facilitate training, we introduce EE4D-Motion, a large-scale dataset derived from EgoExo4D, augmented with pseudo-ground-truth 3D motion annotations. UniEgoMotion achieves state-of-the-art performance in egocentric motion reconstruction and is the first to generate motion from a single egocentric image. Extensive evaluations demonstrate the effectiveness of our unified framework, setting a new benchmark for egocentric motion modeling and unlocking new possibilities for egocentric applications.

UniEgoMotion: Un Modello Unificato per la Ricostruzione, Previsione e Generazione del Movimento Egocentrico

UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation

Abstract

Support