MotionFlux: Generazione Efficiente di Movimenti Guidati da Testo attraverso Flusso Rettificato e Allineamento delle Preferenze

Abstract

La generazione del movimento è essenziale per animare personaggi virtuali e agenti incarnati. Sebbene i metodi recenti basati sul testo abbiano compiuto progressi significativi, spesso incontrano difficoltà nel raggiungere un allineamento preciso tra le descrizioni linguistiche e la semantica del movimento, oltre a inefficienze dovute a inferenze lente e multi-step. Per affrontare questi problemi, introduciamo TMR++ Aligned Preference Optimization (TAPO), un framework innovativo che allinea sottili variazioni di movimento con modificatori testuali e incorpora aggiustamenti iterativi per rafforzare il grounding semantico. Per abilitare ulteriormente la sintesi in tempo reale, proponiamo MotionFLUX, un framework di generazione ad alta velocità basato su deterministic rectified flow matching. A differenza dei tradizionali modelli di diffusione, che richiedono centinaia di passaggi di denoising, MotionFLUX costruisce percorsi di trasporto ottimale tra distribuzioni di rumore e spazi di movimento, facilitando la sintesi in tempo reale. I percorsi di probabilità linearizzati riducono la necessità di campionamento multi-step tipico dei metodi sequenziali, accelerando significativamente il tempo di inferenza senza sacrificare la qualità del movimento. I risultati sperimentali dimostrano che, insieme, TAPO e MotionFLUX formano un sistema unificato che supera gli approcci all'avanguardia sia nella coerenza semantica che nella qualità del movimento, accelerando anche la velocità di generazione. Il codice e i modelli pre-addestrati saranno rilasciati.

English

Motion generation is essential for animating virtual characters and embodied agents. While recent text-driven methods have made significant strides, they often struggle with achieving precise alignment between linguistic descriptions and motion semantics, as well as with the inefficiencies of slow, multi-step inference. To address these issues, we introduce TMR++ Aligned Preference Optimization (TAPO), an innovative framework that aligns subtle motion variations with textual modifiers and incorporates iterative adjustments to reinforce semantic grounding. To further enable real-time synthesis, we propose MotionFLUX, a high-speed generation framework based on deterministic rectified flow matching. Unlike traditional diffusion models, which require hundreds of denoising steps, MotionFLUX constructs optimal transport paths between noise distributions and motion spaces, facilitating real-time synthesis. The linearized probability paths reduce the need for multi-step sampling typical of sequential methods, significantly accelerating inference time without sacrificing motion quality. Experimental results demonstrate that, together, TAPO and MotionFLUX form a unified system that outperforms state-of-the-art approaches in both semantic consistency and motion quality, while also accelerating generation speed. The code and pretrained models will be released.

MotionFlux: Generazione Efficiente di Movimenti Guidati da Testo attraverso Flusso Rettificato e Allineamento delle Preferenze

MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment

Abstract

Support