Riemanniaanse Bewegingsgeneratie: Een Uniform Kader voor Menselijke Bewegingsrepresentatie en -generatie via Riemanniaanse Stroomafstemming
Riemannian Motion Generation: A Unified Framework for Human Motion Representation and Generation via Riemannian Flow Matching
March 16, 2026
Auteurs: Fangran Miao, Jian Huang, Ting Li
cs.AI
Samenvatting
Bewegingsgeneratie voor mensen wordt vaak geleerd in Euclidische ruimten, hoewel geldige bewegingen een gestructureerde niet-Euclidische geometrie volgen. Wij presenteren Riemanniaanse Bewegingsgeneratie (RMG), een uniform raamwerk dat beweging representeert op een productvariëteit en dynamica leert via Riemanniaanse flow matching. RMG factoriseert beweging in verschillende variëteitsfactoren, wat resulteert in een schaalvrije representatie met intrinsieke normalisatie, en gebruikt geodetische interpolatie, raakruimtesupervisie en variëteitsbehoudende ODE-integratie voor training en sampling. Op HumanML3D behaalt RMG state-of-the-art FID in het HumanML3D-formaat (0.043) en scoort het eerste op alle gerapporteerde metrieken onder het MotionStreamer-formaat. Op MotionMillion overtreft het eveneens sterke baseline-methoden (FID 5.6, R@1 0.86). Ablatiestudies tonen aan dat de compacte T+R (translatie + rotaties) representatie het meest stabiel en effectief is, wat geometriebewust modelleren benadrukt als een praktische en schaalbare route naar hoogwaardige bewegingsgeneratie.
English
Human motion generation is often learned in Euclidean spaces, although valid motions follow structured non-Euclidean geometry. We present Riemannian Motion Generation (RMG), a unified framework that represents motion on a product manifold and learns dynamics via Riemannian flow matching. RMG factorizes motion into several manifold factors, yielding a scale-free representation with intrinsic normalization, and uses geodesic interpolation, tangent-space supervision, and manifold-preserving ODE integration for training and sampling. On HumanML3D, RMG achieves state-of-the-art FID in the HumanML3D format (0.043) and ranks first on all reported metrics under the MotionStreamer format. On MotionMillion, it also surpasses strong baselines (FID 5.6, R@1 0.86). Ablations show that the compact T+R (translation + rotations) representation is the most stable and effective, highlighting geometry-aware modeling as a practical and scalable route to high-fidelity motion generation.