ChatPaper.aiChatPaper

UniEgoMotion: Ein einheitliches Modell für die Rekonstruktion, Vorhersage und Generierung egozentrischer Bewegungen

UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation

August 2, 2025
papers.authors: Chaitanya Patel, Hiroki Nakamura, Yuta Kyuragi, Kazuki Kozuka, Juan Carlos Niebles, Ehsan Adeli
cs.AI

papers.abstract

Die egozentrische Erzeugung und Vorhersage menschlicher Bewegungen mit Szenenkontext ist entscheidend für die Verbesserung von AR/VR-Erlebnissen, die Optimierung der Mensch-Roboter-Interaktion, die Weiterentwicklung assistiver Technologien und die Ermöglichung adaptiver Gesundheitslösungen durch die präzise Vorhersage und Simulation von Bewegungen aus der Ego-Perspektive. Bisherige Methoden konzentrieren sich jedoch hauptsächlich auf die Synthese von Bewegungen aus der Dritt-Person-Perspektive mit strukturierten 3D-Szenenkontexten, was ihre Effektivität in realen egozentrischen Umgebungen einschränkt, in denen ein begrenztes Sichtfeld, häufige Verdeckungen und dynamische Kameras die Szenenwahrnehmung erschweren. Um diese Lücke zu schließen, führen wir die Aufgaben Egocentric Motion Generation und Egocentric Motion Forecasting ein, zwei neuartige Ansätze, die Ego-Perspektiv-Bilder für die szenenbewusste Bewegungssynthese nutzen, ohne auf explizite 3D-Szenen angewiesen zu sein. Wir präsentieren UniEgoMotion, ein einheitliches bedingtes Bewegungsdiffusionsmodell mit einer neuartigen kopfzentrierten Bewegungsdarstellung, die speziell für egozentrische Geräte entwickelt wurde. Das einfache, aber effektive Design von UniEgoMotion unterstützt die egozentrische Bewegungsrekonstruktion, -vorhersage und -erzeugung aus visuellen Ego-Perspektiv-Eingaben in einem einheitlichen Framework. Im Gegensatz zu früheren Arbeiten, die die Szenensemantik vernachlässigen, extrahiert unser Modell effektiv bildbasierte Szenenkontexte, um plausible 3D-Bewegungen abzuleiten. Um das Training zu erleichtern, stellen wir EE4D-Motion vor, einen groß angelegten Datensatz, der aus EgoExo4D abgeleitet und mit pseudo-Ground-Truth-3D-Bewegungsannotationen angereichert wurde. UniEgoMotion erreicht state-of-the-art Leistungen in der egozentrischen Bewegungsrekonstruktion und ist das erste Modell, das Bewegungen aus einem einzigen egozentrischen Bild erzeugt. Umfangreiche Evaluierungen demonstrieren die Effektivität unseres einheitlichen Frameworks und setzen einen neuen Maßstab für die egozentrische Bewegungsmodellierung, wodurch neue Möglichkeiten für egozentrische Anwendungen eröffnet werden.
English
Egocentric human motion generation and forecasting with scene-context is crucial for enhancing AR/VR experiences, improving human-robot interaction, advancing assistive technologies, and enabling adaptive healthcare solutions by accurately predicting and simulating movement from a first-person perspective. However, existing methods primarily focus on third-person motion synthesis with structured 3D scene contexts, limiting their effectiveness in real-world egocentric settings where limited field of view, frequent occlusions, and dynamic cameras hinder scene perception. To bridge this gap, we introduce Egocentric Motion Generation and Egocentric Motion Forecasting, two novel tasks that utilize first-person images for scene-aware motion synthesis without relying on explicit 3D scene. We propose UniEgoMotion, a unified conditional motion diffusion model with a novel head-centric motion representation tailored for egocentric devices. UniEgoMotion's simple yet effective design supports egocentric motion reconstruction, forecasting, and generation from first-person visual inputs in a unified framework. Unlike previous works that overlook scene semantics, our model effectively extracts image-based scene context to infer plausible 3D motion. To facilitate training, we introduce EE4D-Motion, a large-scale dataset derived from EgoExo4D, augmented with pseudo-ground-truth 3D motion annotations. UniEgoMotion achieves state-of-the-art performance in egocentric motion reconstruction and is the first to generate motion from a single egocentric image. Extensive evaluations demonstrate the effectiveness of our unified framework, setting a new benchmark for egocentric motion modeling and unlocking new possibilities for egocentric applications.
PDF42August 6, 2025