MotionFlux: Effiziente textgesteuerte Bewegungsgenerierung durch korrigiertes Flussmatching und Präferenzabgleich

papers.abstract

Die Erzeugung von Bewegungen ist entscheidend für die Animation virtueller Charaktere und verkörperter Agenten. Obwohl neuere textgesteuerte Methoden bedeutende Fortschritte erzielt haben, kämpfen sie oft mit der präzisen Ausrichtung zwischen sprachlichen Beschreibungen und Bewegungssemantik sowie mit den Ineffizienzen langsamer, mehrstufiger Inferenz. Um diese Probleme zu adressieren, führen wir TMR++ Aligned Preference Optimization (TAPO) ein, ein innovatives Framework, das subtile Bewegungsvariationen mit textuellen Modifikatoren ausrichtet und iterative Anpassungen zur Stärkung der semantischen Verankerung integriert. Um darüber hinaus die Echtzeitsynthese zu ermöglichen, schlagen wir MotionFLUX vor, ein Hochgeschwindigkeits-Generierungsframework, das auf deterministischem rectified flow matching basiert. Im Gegensatz zu traditionellen Diffusionsmodellen, die hunderte von Entrauschungsschritten erfordern, konstruiert MotionFLUX optimale Transportpfade zwischen Rauschverteilungen und Bewegungsräumen, was die Echtzeitsynthese erleichtert. Die linearisierten Wahrscheinlichkeitspfade reduzieren den Bedarf an mehrstufiger Abtastung, wie sie bei sequenziellen Methoden typisch ist, und beschleunigen die Inferenzzeit erheblich, ohne die Bewegungsqualität zu beeinträchtigen. Experimentelle Ergebnisse zeigen, dass TAPO und MotionFLUX zusammen ein einheitliches System bilden, das state-of-the-art Ansätze sowohl in Bezug auf semantische Konsistenz als auch Bewegungsqualität übertrifft und gleichzeitig die Generierungsgeschwindigkeit beschleunigt. Der Code und die vortrainierten Modelle werden veröffentlicht.

English

Motion generation is essential for animating virtual characters and embodied agents. While recent text-driven methods have made significant strides, they often struggle with achieving precise alignment between linguistic descriptions and motion semantics, as well as with the inefficiencies of slow, multi-step inference. To address these issues, we introduce TMR++ Aligned Preference Optimization (TAPO), an innovative framework that aligns subtle motion variations with textual modifiers and incorporates iterative adjustments to reinforce semantic grounding. To further enable real-time synthesis, we propose MotionFLUX, a high-speed generation framework based on deterministic rectified flow matching. Unlike traditional diffusion models, which require hundreds of denoising steps, MotionFLUX constructs optimal transport paths between noise distributions and motion spaces, facilitating real-time synthesis. The linearized probability paths reduce the need for multi-step sampling typical of sequential methods, significantly accelerating inference time without sacrificing motion quality. Experimental results demonstrate that, together, TAPO and MotionFLUX form a unified system that outperforms state-of-the-art approaches in both semantic consistency and motion quality, while also accelerating generation speed. The code and pretrained models will be released.

MotionFlux: Effiziente textgesteuerte Bewegungsgenerierung durch korrigiertes Flussmatching und Präferenzabgleich

MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment

papers.abstract

Support