Generazione del Movimento Riemanniano: Un Quadro Unificato per la Rappresentazione e Generazione del Movimento Umano tramite Riemannian Flow Matching

Abstract

La generazione del movimento umano viene spesso appresa in spazi euclidei, sebbene i movimenti validi seguano una geometria strutturata non euclidea. Presentiamo Riemannian Motion Generation (RMG), un framework unificato che rappresenta il movimento su un manifold prodotto e apprende le dinamiche tramite Riemannian flow matching. RMG scompone il movimento in diversi fattori di manifold, producendo una rappresentazione indipendente dalla scala con normalizzazione intrinseca, e utilizza l'interpolazione geodetica, la supervisione nello spazio tangente e l'integrazione di ODE che preserva il manifold per l'addestramento e il campionamento. Su HumanML3D, RMG raggiunge uno stato dell'arte FID nel formato HumanML3D (0.043) e si classifica al primo posto in tutte le metriche riportate sotto il formato MotionStreamer. Su MotionMillion, supera anche baseline robuste (FID 5.6, R@1 0.86). Le ablazioni dimostrano che la compatta rappresentazione T+R (traslazioni + rotazioni) è la più stabile ed efficace, evidenziando la modellazione consapevole della geometria come un approccio pratico e scalabile per la generazione di movimenti ad alta fedeltà.

English

Human motion generation is often learned in Euclidean spaces, although valid motions follow structured non-Euclidean geometry. We present Riemannian Motion Generation (RMG), a unified framework that represents motion on a product manifold and learns dynamics via Riemannian flow matching. RMG factorizes motion into several manifold factors, yielding a scale-free representation with intrinsic normalization, and uses geodesic interpolation, tangent-space supervision, and manifold-preserving ODE integration for training and sampling. On HumanML3D, RMG achieves state-of-the-art FID in the HumanML3D format (0.043) and ranks first on all reported metrics under the MotionStreamer format. On MotionMillion, it also surpasses strong baselines (FID 5.6, R@1 0.86). Ablations show that the compact T+R (translation + rotations) representation is the most stable and effective, highlighting geometry-aware modeling as a practical and scalable route to high-fidelity motion generation.

Generazione del Movimento Riemanniano: Un Quadro Unificato per la Rappresentazione e Generazione del Movimento Umano tramite Riemannian Flow Matching

Riemannian Motion Generation: A Unified Framework for Human Motion Representation and Generation via Riemannian Flow Matching

Abstract

Support