MotionFlux: 정류된 흐름 매칭과 선호도 정렬을 통한 효율적인 텍스트 기반 모션 생성
MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment
August 27, 2025
저자: Zhiting Gao, Dan Song, Diqiong Jiang, Chao Xue, An-An Liu
cs.AI
초록
모션 생성은 가상 캐릭터와 구체화된 에이전트를 애니메이션화하는 데 필수적입니다. 최근 텍스트 기반 방법들이 큰 진전을 이루었지만, 언어적 설명과 모션 의미론 간의 정확한 정렬을 달성하는 데 어려움을 겪으며, 느리고 다단계 추론의 비효율성도 문제로 남아 있습니다. 이러한 문제를 해결하기 위해, 우리는 TMR++ Aligned Preference Optimization (TAPO)를 소개합니다. 이 혁신적인 프레임워크는 미세한 모션 변형을 텍스트 수식어와 정렬하고, 반복적인 조정을 통해 의미론적 기반을 강화합니다. 더 나아가 실시간 합성을 가능하게 하기 위해, 우리는 결정론적 수정된 흐름 매칭(rectified flow matching)을 기반으로 한 고속 생성 프레임워크인 MotionFLUX를 제안합니다. 기존의 확산 모델(diffusion models)이 수백 번의 노이즈 제거 단계를 필요로 하는 반면, MotionFLUX는 노이즈 분포와 모션 공간 간의 최적 전송 경로를 구성하여 실시간 합성을 용이하게 합니다. 선형화된 확률 경로는 순차적 방법에서 일반적으로 필요한 다단계 샘플링의 필요성을 줄여, 모션 품질을 희생하지 않으면서도 추론 시간을 크게 단축합니다. 실험 결과는 TAPO와 MotionFLUX가 결합된 통합 시스템이 의미론적 일관성과 모션 품질 모두에서 최신 기술을 능가하며, 생성 속도도 가속화한다는 것을 보여줍니다. 코드와 사전 학습된 모델은 공개될 예정입니다.
English
Motion generation is essential for animating virtual characters and embodied
agents. While recent text-driven methods have made significant strides, they
often struggle with achieving precise alignment between linguistic descriptions
and motion semantics, as well as with the inefficiencies of slow, multi-step
inference. To address these issues, we introduce TMR++ Aligned Preference
Optimization (TAPO), an innovative framework that aligns subtle motion
variations with textual modifiers and incorporates iterative adjustments to
reinforce semantic grounding. To further enable real-time synthesis, we propose
MotionFLUX, a high-speed generation framework based on deterministic rectified
flow matching. Unlike traditional diffusion models, which require hundreds of
denoising steps, MotionFLUX constructs optimal transport paths between noise
distributions and motion spaces, facilitating real-time synthesis. The
linearized probability paths reduce the need for multi-step sampling typical of
sequential methods, significantly accelerating inference time without
sacrificing motion quality. Experimental results demonstrate that, together,
TAPO and MotionFLUX form a unified system that outperforms state-of-the-art
approaches in both semantic consistency and motion quality, while also
accelerating generation speed. The code and pretrained models will be released.