Génération de Mouvement Riemannien : Un Cadre Unifié pour la Représentation et la Génération du Mouvement Humain via l'Appariement de Flux Riemannien

Résumé

La génération de mouvements humains est souvent apprise dans des espaces euclidiens, bien que les mouvements valides suivent une géométrie non euclidienne structurée. Nous présentons la Génération de Mouvements Riemannienne (RMG), un cadre unifié qui représente le mouvement sur un produit de variétés et apprend la dynamique via l'appariement de flots riemanniens. RMG factorise le mouvement en plusieurs facteurs de variétés, produisant une représentation sans échelle avec normalisation intrinsèque, et utilise l'interpolation géodésique, la supervision dans l'espace tangent, et l'intégration d'EDO préservant la variété pour l'entraînement et l'échantillonnage. Sur HumanML3D, RMG atteint un FID de pointe au format HumanML3D (0,043) et se classe première sur toutes les métriques rapportées sous le format MotionStreamer. Sur MotionMillion, elle surpasse également des bases de référence solides (FID 5,6, R@1 0,86). Les études d'ablation montrent que la représentation compacte T+R (translations + rotations) est la plus stable et efficace, soulignant que la modélisation géométriquement consciente est une voie pratique et évolutive vers la génération de mouvements de haute fidélité.

English

Human motion generation is often learned in Euclidean spaces, although valid motions follow structured non-Euclidean geometry. We present Riemannian Motion Generation (RMG), a unified framework that represents motion on a product manifold and learns dynamics via Riemannian flow matching. RMG factorizes motion into several manifold factors, yielding a scale-free representation with intrinsic normalization, and uses geodesic interpolation, tangent-space supervision, and manifold-preserving ODE integration for training and sampling. On HumanML3D, RMG achieves state-of-the-art FID in the HumanML3D format (0.043) and ranks first on all reported metrics under the MotionStreamer format. On MotionMillion, it also surpasses strong baselines (FID 5.6, R@1 0.86). Ablations show that the compact T+R (translation + rotations) representation is the most stable and effective, highlighting geometry-aware modeling as a practical and scalable route to high-fidelity motion generation.

Génération de Mouvement Riemannien : Un Cadre Unifié pour la Représentation et la Génération du Mouvement Humain via l'Appariement de Flux Riemannien

Riemannian Motion Generation: A Unified Framework for Human Motion Representation and Generation via Riemannian Flow Matching

Résumé

Support