MotionFlux: Geração Eficiente de Movimento Guiada por Texto através de Fluxo Retificado e Alinhamento de Preferências

Resumo

A geração de movimento é essencial para animar personagens virtuais e agentes corporificados. Embora métodos recentes baseados em texto tenham feito avanços significativos, eles frequentemente enfrentam dificuldades para alcançar um alinhamento preciso entre descrições linguísticas e semântica de movimento, além das ineficiências de inferência lenta e em múltiplas etapas. Para abordar essas questões, introduzimos o TMR++ Aligned Preference Optimization (TAPO), uma estrutura inovadora que alinha variações sutis de movimento com modificadores textuais e incorpora ajustes iterativos para reforçar o fundamento semântico. Para permitir ainda mais a síntese em tempo real, propomos o MotionFLUX, uma estrutura de geração de alta velocidade baseada em fluxo retificado determinístico. Diferente dos modelos de difusão tradicionais, que exigem centenas de etapas de remoção de ruído, o MotionFLUX constrói caminhos de transporte ótimo entre distribuições de ruído e espaços de movimento, facilitando a síntese em tempo real. Os caminhos de probabilidade linearizados reduzem a necessidade de amostragem em múltiplas etapas típica de métodos sequenciais, acelerando significativamente o tempo de inferência sem sacrificar a qualidade do movimento. Resultados experimentais demonstram que, juntos, TAPO e MotionFLUX formam um sistema unificado que supera as abordagens mais avançadas tanto em consistência semântica quanto em qualidade de movimento, ao mesmo tempo que acelera a velocidade de geração. O código e os modelos pré-treinados serão liberados.

English

Motion generation is essential for animating virtual characters and embodied agents. While recent text-driven methods have made significant strides, they often struggle with achieving precise alignment between linguistic descriptions and motion semantics, as well as with the inefficiencies of slow, multi-step inference. To address these issues, we introduce TMR++ Aligned Preference Optimization (TAPO), an innovative framework that aligns subtle motion variations with textual modifiers and incorporates iterative adjustments to reinforce semantic grounding. To further enable real-time synthesis, we propose MotionFLUX, a high-speed generation framework based on deterministic rectified flow matching. Unlike traditional diffusion models, which require hundreds of denoising steps, MotionFLUX constructs optimal transport paths between noise distributions and motion spaces, facilitating real-time synthesis. The linearized probability paths reduce the need for multi-step sampling typical of sequential methods, significantly accelerating inference time without sacrificing motion quality. Experimental results demonstrate that, together, TAPO and MotionFLUX form a unified system that outperforms state-of-the-art approaches in both semantic consistency and motion quality, while also accelerating generation speed. The code and pretrained models will be released.

MotionFlux: Geração Eficiente de Movimento Guiada por Texto através de Fluxo Retificado e Alinhamento de Preferências

MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment

Resumo

Support