MotionFlux: Эффективная генерация движения на основе текста через согласование с исправленным потоком и выравнивание предпочтений
MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment
August 27, 2025
Авторы: Zhiting Gao, Dan Song, Diqiong Jiang, Chao Xue, An-An Liu
cs.AI
Аннотация
Генерация движений играет ключевую роль в анимации виртуальных персонажей и воплощённых агентов. Хотя современные методы, основанные на текстовых описаниях, достигли значительных успехов, они часто сталкиваются с трудностями в достижении точного соответствия между лингвистическими описаниями и семантикой движений, а также с неэффективностью медленного, многошагового вывода. Для решения этих проблем мы представляем TMR++ Aligned Preference Optimization (TAPO) — инновационную структуру, которая согласует тонкие вариации движений с текстовыми модификаторами и включает итеративные корректировки для усиления семантической привязки. Чтобы дополнительно обеспечить синтез в реальном времени, мы предлагаем MotionFLUX — высокоскоростную структуру генерации, основанную на детерминированном согласованном потоке. В отличие от традиционных диффузионных моделей, требующих сотен шагов удаления шума, MotionFLUX строит оптимальные транспортные пути между распределениями шума и пространствами движений, что способствует синтезу в реальном времени. Линеаризованные вероятностные пути снижают необходимость в многошаговой выборке, характерной для последовательных методов, значительно ускоряя время вывода без ущерба для качества движений. Экспериментальные результаты показывают, что вместе TAPO и MotionFLUX образуют единую систему, превосходящую современные подходы как по семантической согласованности, так и по качеству движений, одновременно ускоряя скорость генерации. Код и предобученные модели будут опубликованы.
English
Motion generation is essential for animating virtual characters and embodied
agents. While recent text-driven methods have made significant strides, they
often struggle with achieving precise alignment between linguistic descriptions
and motion semantics, as well as with the inefficiencies of slow, multi-step
inference. To address these issues, we introduce TMR++ Aligned Preference
Optimization (TAPO), an innovative framework that aligns subtle motion
variations with textual modifiers and incorporates iterative adjustments to
reinforce semantic grounding. To further enable real-time synthesis, we propose
MotionFLUX, a high-speed generation framework based on deterministic rectified
flow matching. Unlike traditional diffusion models, which require hundreds of
denoising steps, MotionFLUX constructs optimal transport paths between noise
distributions and motion spaces, facilitating real-time synthesis. The
linearized probability paths reduce the need for multi-step sampling typical of
sequential methods, significantly accelerating inference time without
sacrificing motion quality. Experimental results demonstrate that, together,
TAPO and MotionFLUX form a unified system that outperforms state-of-the-art
approaches in both semantic consistency and motion quality, while also
accelerating generation speed. The code and pretrained models will be released.