Geração de Movimento Riemanniano: Um Framework Unificado para Representação e Geração de Movimento Humano via Emparelhamento de Fluxo Riemanniano
Riemannian Motion Generation: A Unified Framework for Human Motion Representation and Generation via Riemannian Flow Matching
March 16, 2026
Autores: Fangran Miao, Jian Huang, Ting Li
cs.AI
Resumo
A geração de movimento humano é frequentemente aprendida em espaços Euclidianos, embora movimentos válidos sigam uma geometria não-Euclidiana estruturada. Apresentamos a Geração de Movimento Riemanniana (RMG), uma estrutura unificada que representa o movimento em um manifold produto e aprende dinâmicas via correspondência de fluxo Riemanniano. A RMG fatoriza o movimento em vários fatores de manifold, resultando numa representação livre de escala com normalização intrínseca, e usa interpolação geodésica, supervisão no espaço tangente e integração de EDOs que preserva o manifold para treinamento e amostragem. No HumanML3D, a RMG alcança FID state-of-the-art no formato HumanML3D (0.043) e classifica-se em primeiro lugar em todas as métricas reportadas sob o formato MotionStreamer. No MotionMillion, também supera baselines fortes (FID 5.6, R@1 0.86). Ablações mostram que a representação compacta T+R (translação + rotações) é a mais estável e eficaz, destacando a modelagem consciente da geometria como uma rota prática e escalável para a geração de movimento de alta fidelidade.
English
Human motion generation is often learned in Euclidean spaces, although valid motions follow structured non-Euclidean geometry. We present Riemannian Motion Generation (RMG), a unified framework that represents motion on a product manifold and learns dynamics via Riemannian flow matching. RMG factorizes motion into several manifold factors, yielding a scale-free representation with intrinsic normalization, and uses geodesic interpolation, tangent-space supervision, and manifold-preserving ODE integration for training and sampling. On HumanML3D, RMG achieves state-of-the-art FID in the HumanML3D format (0.043) and ranks first on all reported metrics under the MotionStreamer format. On MotionMillion, it also surpasses strong baselines (FID 5.6, R@1 0.86). Ablations show that the compact T+R (translation + rotations) representation is the most stable and effective, highlighting geometry-aware modeling as a practical and scalable route to high-fidelity motion generation.