Генерация римановых движений: унифицированная структура для представления и генерации движений человека с помощью риманового согласования потоков

Аннотация

Генерация движений человека часто изучается в евклидовых пространствах, хотя корректные движения подчиняются структурированной неевклидовой геометрии. Мы представляем риманову генерацию движений (Riemannian Motion Generation, RMG) — унифицированный фреймворк, который представляет движение на произведении многообразий и изучает динамику с помощью риманова согласования потоков (Riemannian flow matching). RMG факторизует движение на несколько факторов-многообразий, обеспечивая масштабно-независимое представление с внутренней нормализацией, и использует геодезическую интерполяцию, контроль в касательных пространствах и интегрирование ОДУ, сохраняющее многообразие, для обучения и сэмплирования. На наборе HumanML3D RMG достигает наилучшего показателя FID в формате HumanML3D (0.043) и занимает первое место по всем заявленным метрикам в формате MotionStreamer. На наборе MotionMillion метод также превосходит сильные базовые линии (FID 5.6, R@1 0.86). Абляционные исследования показывают, что компактное представление T+R (трансляции + вращения) является наиболее стабильным и эффективным, что подчеркивает осведомленное о геометрии моделирование как практичный и масштабируемый путь к генерации движений высокой точности.

English

Human motion generation is often learned in Euclidean spaces, although valid motions follow structured non-Euclidean geometry. We present Riemannian Motion Generation (RMG), a unified framework that represents motion on a product manifold and learns dynamics via Riemannian flow matching. RMG factorizes motion into several manifold factors, yielding a scale-free representation with intrinsic normalization, and uses geodesic interpolation, tangent-space supervision, and manifold-preserving ODE integration for training and sampling. On HumanML3D, RMG achieves state-of-the-art FID in the HumanML3D format (0.043) and ranks first on all reported metrics under the MotionStreamer format. On MotionMillion, it also surpasses strong baselines (FID 5.6, R@1 0.86). Ablations show that the compact T+R (translation + rotations) representation is the most stable and effective, highlighting geometry-aware modeling as a practical and scalable route to high-fidelity motion generation.

Генерация римановых движений: унифицированная структура для представления и генерации движений человека с помощью риманового согласования потоков

Riemannian Motion Generation: A Unified Framework for Human Motion Representation and Generation via Riemannian Flow Matching

Аннотация

Support