Riemannsche Bewegungsgenerierung: Ein einheitliches Rahmenwerk für die Repräsentation und Erzeugung menschlicher Bewegung mittels Riemannschem Flow Matching
Riemannian Motion Generation: A Unified Framework for Human Motion Representation and Generation via Riemannian Flow Matching
March 16, 2026
Autoren: Fangran Miao, Jian Huang, Ting Li
cs.AI
Zusammenfassung
Die Erzeugung menschlicher Bewegungen wird häufig in euklidischen Räumen erlernt, obwohl gültige Bewegungen einer strukturierten nichteuklidischen Geometrie folgen. Wir stellen Riemannian Motion Generation (RMG) vor, einen einheitlichen Rahmen, der Bewegung auf einem Produktmannigfaltigkeit abbildet und Dynamik mittels Riemannian Flow Matching erlernt. RMG faktorisiert Bewegung in mehrere Mannigfaltigkeitsfaktoren, was eine skalierungsfreie Darstellung mit intrinsischer Normalisierung ergibt, und nutzt geodätische Interpolation, Tangentialraum-Supervision und mannigfaltigkeitserhaltende ODE-Integration für Training und Abtastung. Auf HumanML3D erreicht RMG state-of-the-art FID im HumanML3D-Format (0,043) und belegt in allen berichteten Metriken unter dem MotionStreamer-Format den ersten Platz. Auf MotionMillion übertrifft es ebenfalls starke Baselines (FID 5,6, R@1 0,86). Ablationstudien zeigen, dass die kompakte T+R (Translation + Rotationen) Darstellung die stabilste und effektivste ist, was geometrie-bewusste Modellierung als praktischen und skalierbaren Weg zur hochwertigen Bewegungserzeugung hervorhebt.
English
Human motion generation is often learned in Euclidean spaces, although valid motions follow structured non-Euclidean geometry. We present Riemannian Motion Generation (RMG), a unified framework that represents motion on a product manifold and learns dynamics via Riemannian flow matching. RMG factorizes motion into several manifold factors, yielding a scale-free representation with intrinsic normalization, and uses geodesic interpolation, tangent-space supervision, and manifold-preserving ODE integration for training and sampling. On HumanML3D, RMG achieves state-of-the-art FID in the HumanML3D format (0.043) and ranks first on all reported metrics under the MotionStreamer format. On MotionMillion, it also surpasses strong baselines (FID 5.6, R@1 0.86). Ablations show that the compact T+R (translation + rotations) representation is the most stable and effective, highlighting geometry-aware modeling as a practical and scalable route to high-fidelity motion generation.