MotionFlux : Génération efficace de mouvements guidés par texte via l'appariement de flux rectifié et l'alignement des préférences
MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment
August 27, 2025
papers.authors: Zhiting Gao, Dan Song, Diqiong Jiang, Chao Xue, An-An Liu
cs.AI
papers.abstract
La génération de mouvement est essentielle pour animer des personnages virtuels et des agents incarnés. Bien que les méthodes récentes basées sur le texte aient réalisé des progrès significatifs, elles rencontrent souvent des difficultés pour atteindre un alignement précis entre les descriptions linguistiques et la sémantique des mouvements, ainsi que pour surmonter les inefficacités liées à une inférence lente et multi-étapes. Pour résoudre ces problèmes, nous introduisons TMR++ Aligned Preference Optimization (TAPO), un cadre innovant qui aligne les variations subtiles de mouvement avec les modificateurs textuels et intègre des ajustements itératifs pour renforcer l'ancrage sémantique. Pour permettre en outre une synthèse en temps réel, nous proposons MotionFLUX, un cadre de génération à haute vitesse basé sur l'appariement de flux rectifié déterministe. Contrairement aux modèles de diffusion traditionnels, qui nécessitent des centaines d'étapes de débruitage, MotionFLUX construit des chemins de transport optimal entre les distributions de bruit et les espaces de mouvement, facilitant ainsi la synthèse en temps réel. Les chemins de probabilité linéarisés réduisent le besoin d'échantillonnage multi-étapes typique des méthodes séquentielles, accélérant considérablement le temps d'inférence sans sacrifier la qualité du mouvement. Les résultats expérimentaux démontrent que, ensemble, TAPO et MotionFLUX forment un système unifié qui surpasse les approches de pointe à la fois en termes de cohérence sémantique et de qualité de mouvement, tout en accélérant la vitesse de génération. Le code et les modèles pré-entraînés seront publiés.
English
Motion generation is essential for animating virtual characters and embodied
agents. While recent text-driven methods have made significant strides, they
often struggle with achieving precise alignment between linguistic descriptions
and motion semantics, as well as with the inefficiencies of slow, multi-step
inference. To address these issues, we introduce TMR++ Aligned Preference
Optimization (TAPO), an innovative framework that aligns subtle motion
variations with textual modifiers and incorporates iterative adjustments to
reinforce semantic grounding. To further enable real-time synthesis, we propose
MotionFLUX, a high-speed generation framework based on deterministic rectified
flow matching. Unlike traditional diffusion models, which require hundreds of
denoising steps, MotionFLUX constructs optimal transport paths between noise
distributions and motion spaces, facilitating real-time synthesis. The
linearized probability paths reduce the need for multi-step sampling typical of
sequential methods, significantly accelerating inference time without
sacrificing motion quality. Experimental results demonstrate that, together,
TAPO and MotionFLUX form a unified system that outperforms state-of-the-art
approaches in both semantic consistency and motion quality, while also
accelerating generation speed. The code and pretrained models will be released.