ChatPaper.aiChatPaper

MotionFlux: Generación eficiente de movimiento guiada por texto mediante flujo rectificado y alineación de preferencias

MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment

August 27, 2025
Autores: Zhiting Gao, Dan Song, Diqiong Jiang, Chao Xue, An-An Liu
cs.AI

Resumen

La generación de movimiento es esencial para animar personajes virtuales y agentes corporizados. Si bien los métodos recientes basados en texto han logrado avances significativos, a menudo enfrentan dificultades para alcanzar una alineación precisa entre las descripciones lingüísticas y la semántica del movimiento, así como con las ineficiencias de una inferencia lenta y de múltiples pasos. Para abordar estos problemas, presentamos TMR++ Aligned Preference Optimization (TAPO), un marco innovador que alinea variaciones sutiles del movimiento con modificadores textuales e incorpora ajustes iterativos para reforzar la fundamentación semántica. Para habilitar aún más la síntesis en tiempo real, proponemos MotionFLUX, un marco de generación de alta velocidad basado en el emparejamiento de flujo rectificado determinista. A diferencia de los modelos de difusión tradicionales, que requieren cientos de pasos de eliminación de ruido, MotionFLUX construye trayectorias de transporte óptimo entre distribuciones de ruido y espacios de movimiento, facilitando la síntesis en tiempo real. Las trayectorias de probabilidad linealizadas reducen la necesidad de muestreo de múltiples pasos típico de los métodos secuenciales, acelerando significativamente el tiempo de inferencia sin sacrificar la calidad del movimiento. Los resultados experimentales demuestran que, juntos, TAPO y MotionFLUX forman un sistema unificado que supera a los enfoques más avanzados tanto en consistencia semántica como en calidad de movimiento, al mismo tiempo que acelera la velocidad de generación. El código y los modelos preentrenados serán liberados.
English
Motion generation is essential for animating virtual characters and embodied agents. While recent text-driven methods have made significant strides, they often struggle with achieving precise alignment between linguistic descriptions and motion semantics, as well as with the inefficiencies of slow, multi-step inference. To address these issues, we introduce TMR++ Aligned Preference Optimization (TAPO), an innovative framework that aligns subtle motion variations with textual modifiers and incorporates iterative adjustments to reinforce semantic grounding. To further enable real-time synthesis, we propose MotionFLUX, a high-speed generation framework based on deterministic rectified flow matching. Unlike traditional diffusion models, which require hundreds of denoising steps, MotionFLUX constructs optimal transport paths between noise distributions and motion spaces, facilitating real-time synthesis. The linearized probability paths reduce the need for multi-step sampling typical of sequential methods, significantly accelerating inference time without sacrificing motion quality. Experimental results demonstrate that, together, TAPO and MotionFLUX form a unified system that outperforms state-of-the-art approaches in both semantic consistency and motion quality, while also accelerating generation speed. The code and pretrained models will be released.
PDF82August 28, 2025