ChatPaper.aiChatPaper

UniEgoMotion: Um Modelo Unificado para Reconstrução, Previsão e Geração de Movimento Egocêntrico

UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation

August 2, 2025
Autores: Chaitanya Patel, Hiroki Nakamura, Yuta Kyuragi, Kazuki Kozuka, Juan Carlos Niebles, Ehsan Adeli
cs.AI

Resumo

A geração e previsão de movimento humano egocêntrico com contexto de cena é crucial para aprimorar experiências de AR/VR, melhorar a interação humano-robô, avançar tecnologias assistivas e permitir soluções de saúde adaptativas, ao prever e simular com precisão o movimento a partir de uma perspectiva em primeira pessoa. No entanto, os métodos existentes focam principalmente na síntese de movimento em terceira pessoa com contextos de cena 3D estruturados, limitando sua eficácia em cenários egocêntricos do mundo real, onde o campo de visão limitado, oclusões frequentes e câmeras dinâmicas dificultam a percepção da cena. Para preencher essa lacuna, introduzimos Geração de Movimento Egocêntrico e Previsão de Movimento Egocêntrico, duas novas tarefas que utilizam imagens em primeira pessoa para síntese de movimento consciente da cena sem depender de cenas 3D explícitas. Propomos o UniEgoMotion, um modelo unificado de difusão de movimento condicional com uma nova representação de movimento centrada na cabeça, projetada para dispositivos egocêntricos. O design simples, porém eficaz do UniEgoMotion, suporta reconstrução, previsão e geração de movimento egocêntrico a partir de entradas visuais em primeira pessoa em um framework unificado. Diferente de trabalhos anteriores que ignoram a semântica da cena, nosso modelo extrai efetivamente o contexto da cena baseado em imagens para inferir movimento 3D plausível. Para facilitar o treinamento, introduzimos o EE4D-Motion, um conjunto de dados em larga escala derivado do EgoExo4D, aumentado com anotações pseudo-ground-truth de movimento 3D. O UniEgoMotion alcança desempenho de ponta em reconstrução de movimento egocêntrico e é o primeiro a gerar movimento a partir de uma única imagem egocêntrica. Avaliações extensivas demonstram a eficácia do nosso framework unificado, estabelecendo um novo padrão para modelagem de movimento egocêntrico e abrindo novas possibilidades para aplicações egocêntricas.
English
Egocentric human motion generation and forecasting with scene-context is crucial for enhancing AR/VR experiences, improving human-robot interaction, advancing assistive technologies, and enabling adaptive healthcare solutions by accurately predicting and simulating movement from a first-person perspective. However, existing methods primarily focus on third-person motion synthesis with structured 3D scene contexts, limiting their effectiveness in real-world egocentric settings where limited field of view, frequent occlusions, and dynamic cameras hinder scene perception. To bridge this gap, we introduce Egocentric Motion Generation and Egocentric Motion Forecasting, two novel tasks that utilize first-person images for scene-aware motion synthesis without relying on explicit 3D scene. We propose UniEgoMotion, a unified conditional motion diffusion model with a novel head-centric motion representation tailored for egocentric devices. UniEgoMotion's simple yet effective design supports egocentric motion reconstruction, forecasting, and generation from first-person visual inputs in a unified framework. Unlike previous works that overlook scene semantics, our model effectively extracts image-based scene context to infer plausible 3D motion. To facilitate training, we introduce EE4D-Motion, a large-scale dataset derived from EgoExo4D, augmented with pseudo-ground-truth 3D motion annotations. UniEgoMotion achieves state-of-the-art performance in egocentric motion reconstruction and is the first to generate motion from a single egocentric image. Extensive evaluations demonstrate the effectiveness of our unified framework, setting a new benchmark for egocentric motion modeling and unlocking new possibilities for egocentric applications.
PDF52August 6, 2025