UniEgoMotion: Унифицированная модель для реконструкции, прогнозирования и генерации эгоцентрического движения
UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation
August 2, 2025
Авторы: Chaitanya Patel, Hiroki Nakamura, Yuta Kyuragi, Kazuki Kozuka, Juan Carlos Niebles, Ehsan Adeli
cs.AI
Аннотация
Генерация и прогнозирование эгоцентрического движения человека с учетом контекста сцены играет ключевую роль в улучшении опыта AR/VR, совершенствовании взаимодействия человека с роботами, развитии вспомогательных технологий и создании адаптивных решений в здравоохранении за счет точного предсказания и симуляции движения с точки зрения первого лица. Однако существующие методы в основном сосредоточены на синтезе движения от третьего лица с использованием структурированного 3D-контекста сцены, что ограничивает их эффективность в реальных эгоцентрических условиях, где ограниченное поле зрения, частые окклюзии и динамические камеры затрудняют восприятие сцены. Чтобы устранить этот пробел, мы представляем две новые задачи: генерацию эгоцентрического движения и прогнозирование эгоцентрического движения, которые используют изображения от первого лица для синтеза движения с учетом сцены без необходимости явного 3D-контекста. Мы предлагаем UniEgoMotion — унифицированную условную модель диффузии движения с новой головоцентрической репрезентацией движения, адаптированной для эгоцентрических устройств. Простой, но эффективный дизайн UniEgoMotion поддерживает реконструкцию, прогнозирование и генерацию эгоцентрического движения на основе визуальных данных от первого лица в единой структуре. В отличие от предыдущих работ, игнорирующих семантику сцены, наша модель эффективно извлекает контекст сцены из изображений для вывода правдоподобного 3D-движения. Для облегчения обучения мы представляем EE4D-Motion — крупномасштабный набор данных, созданный на основе EgoExo4D и дополненный псевдо-истинными аннотациями 3D-движения. UniEgoMotion достигает наилучших результатов в реконструкции эгоцентрического движения и является первой моделью, способной генерировать движение на основе одного эгоцентрического изображения. Многочисленные оценки демонстрируют эффективность нашей унифицированной структуры, устанавливая новый стандарт для моделирования эгоцентрического движения и открывая новые возможности для эгоцентрических приложений.
English
Egocentric human motion generation and forecasting with scene-context is
crucial for enhancing AR/VR experiences, improving human-robot interaction,
advancing assistive technologies, and enabling adaptive healthcare solutions by
accurately predicting and simulating movement from a first-person perspective.
However, existing methods primarily focus on third-person motion synthesis with
structured 3D scene contexts, limiting their effectiveness in real-world
egocentric settings where limited field of view, frequent occlusions, and
dynamic cameras hinder scene perception. To bridge this gap, we introduce
Egocentric Motion Generation and Egocentric Motion Forecasting, two novel tasks
that utilize first-person images for scene-aware motion synthesis without
relying on explicit 3D scene. We propose UniEgoMotion, a unified conditional
motion diffusion model with a novel head-centric motion representation tailored
for egocentric devices. UniEgoMotion's simple yet effective design supports
egocentric motion reconstruction, forecasting, and generation from first-person
visual inputs in a unified framework. Unlike previous works that overlook scene
semantics, our model effectively extracts image-based scene context to infer
plausible 3D motion. To facilitate training, we introduce EE4D-Motion, a
large-scale dataset derived from EgoExo4D, augmented with pseudo-ground-truth
3D motion annotations. UniEgoMotion achieves state-of-the-art performance in
egocentric motion reconstruction and is the first to generate motion from a
single egocentric image. Extensive evaluations demonstrate the effectiveness of
our unified framework, setting a new benchmark for egocentric motion modeling
and unlocking new possibilities for egocentric applications.