Generación de Movimiento Riemanniano: Un Marco Unificado para la Representación y Generación de Movimiento Humano mediante Emparejamiento de Flujos en Variedades de Riemann

Resumen

La generación de movimiento humano a menudo se aprende en espacios euclídeos, aunque los movimientos válidos siguen una geometría no euclídea estructurada. Presentamos Riemannian Motion Generation (RMG), un marco unificado que representa el movimiento en un producto de variedades y aprende dinámicas mediante *Riemannian flow matching*. RMG factoriza el movimiento en varios factores de variedad, obteniendo una representación independiente de la escala con normalización intrínseca, y utiliza interpolación geodésica, supervisión en el espacio tangente e integración de EDO que preserva la variedad para el entrenamiento y muestreo. En HumanML3D, RMG logra un FID de última generación en el formato HumanML3D (0.043) y ocupa el primer puesto en todas las métricas reportadas bajo el formato MotionStreamer. En MotionMillion, también supera a líneas de base sólidas (FID 5.6, R@1 0.86). Los estudios de ablación muestran que la representación compacta T+R (traslaciones + rotaciones) es la más estable y efectiva, destacando el modelado consciente de la geometría como una ruta práctica y escalable para la generación de movimiento de alta fidelidad.

English

Human motion generation is often learned in Euclidean spaces, although valid motions follow structured non-Euclidean geometry. We present Riemannian Motion Generation (RMG), a unified framework that represents motion on a product manifold and learns dynamics via Riemannian flow matching. RMG factorizes motion into several manifold factors, yielding a scale-free representation with intrinsic normalization, and uses geodesic interpolation, tangent-space supervision, and manifold-preserving ODE integration for training and sampling. On HumanML3D, RMG achieves state-of-the-art FID in the HumanML3D format (0.043) and ranks first on all reported metrics under the MotionStreamer format. On MotionMillion, it also surpasses strong baselines (FID 5.6, R@1 0.86). Ablations show that the compact T+R (translation + rotations) representation is the most stable and effective, highlighting geometry-aware modeling as a practical and scalable route to high-fidelity motion generation.

Generación de Movimiento Riemanniano: Un Marco Unificado para la Representación y Generación de Movimiento Humano mediante Emparejamiento de Flujos en Variedades de Riemann

Riemannian Motion Generation: A Unified Framework for Human Motion Representation and Generation via Riemannian Flow Matching

Resumen

Support