UniEgoMotion: Un Modelo Unificado para la Reconstrucción, Predicción y Generación de Movimiento Egocéntrico
UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation
August 2, 2025
Autores: Chaitanya Patel, Hiroki Nakamura, Yuta Kyuragi, Kazuki Kozuka, Juan Carlos Niebles, Ehsan Adeli
cs.AI
Resumen
La generación y predicción de movimiento humano egocéntrico con contexto escénico es crucial para mejorar las experiencias de realidad aumentada/virtual, optimizar la interacción humano-robot, avanzar en tecnologías asistenciales y habilitar soluciones de salud adaptativas mediante la predicción y simulación precisa del movimiento desde una perspectiva en primera persona. Sin embargo, los métodos existentes se centran principalmente en la síntesis de movimiento en tercera persona con contextos escénicos 3D estructurados, lo que limita su eficacia en entornos egocéntricos del mundo real, donde el campo de visión reducido, las oclusiones frecuentes y las cámaras dinámicas dificultan la percepción de la escena. Para cerrar esta brecha, presentamos Generación de Movimiento Egocéntrico y Predicción de Movimiento Egocéntrico, dos tareas novedosas que utilizan imágenes en primera persona para la síntesis de movimiento consciente del entorno sin depender de escenas 3D explícitas. Proponemos UniEgoMotion, un modelo unificado de difusión condicional de movimiento con una representación de movimiento centrada en la cabeza diseñada específicamente para dispositivos egocéntricos. El diseño simple pero efectivo de UniEgoMotion permite la reconstrucción, predicción y generación de movimiento egocéntrico a partir de entradas visuales en primera persona dentro de un marco unificado. A diferencia de trabajos anteriores que pasan por alto la semántica de la escena, nuestro modelo extrae eficazmente el contexto escénico basado en imágenes para inferir movimiento 3D plausible. Para facilitar el entrenamiento, presentamos EE4D-Motion, un conjunto de datos a gran escala derivado de EgoExo4D, aumentado con anotaciones de movimiento 3D pseudo-ground-truth. UniEgoMotion logra un rendimiento de vanguardia en la reconstrucción de movimiento egocéntrico y es el primero en generar movimiento a partir de una sola imagen egocéntrica. Evaluaciones exhaustivas demuestran la efectividad de nuestro marco unificado, estableciendo un nuevo estándar en el modelado de movimiento egocéntrico y abriendo nuevas posibilidades para aplicaciones egocéntricas.
English
Egocentric human motion generation and forecasting with scene-context is
crucial for enhancing AR/VR experiences, improving human-robot interaction,
advancing assistive technologies, and enabling adaptive healthcare solutions by
accurately predicting and simulating movement from a first-person perspective.
However, existing methods primarily focus on third-person motion synthesis with
structured 3D scene contexts, limiting their effectiveness in real-world
egocentric settings where limited field of view, frequent occlusions, and
dynamic cameras hinder scene perception. To bridge this gap, we introduce
Egocentric Motion Generation and Egocentric Motion Forecasting, two novel tasks
that utilize first-person images for scene-aware motion synthesis without
relying on explicit 3D scene. We propose UniEgoMotion, a unified conditional
motion diffusion model with a novel head-centric motion representation tailored
for egocentric devices. UniEgoMotion's simple yet effective design supports
egocentric motion reconstruction, forecasting, and generation from first-person
visual inputs in a unified framework. Unlike previous works that overlook scene
semantics, our model effectively extracts image-based scene context to infer
plausible 3D motion. To facilitate training, we introduce EE4D-Motion, a
large-scale dataset derived from EgoExo4D, augmented with pseudo-ground-truth
3D motion annotations. UniEgoMotion achieves state-of-the-art performance in
egocentric motion reconstruction and is the first to generate motion from a
single egocentric image. Extensive evaluations demonstrate the effectiveness of
our unified framework, setting a new benchmark for egocentric motion modeling
and unlocking new possibilities for egocentric applications.