유동 매칭을 통한 통합 번호 없는 텍스트-모션 생성
Unified Number-Free Text-to-Motion Generation Via Flow Matching
March 27, 2026
저자: Guanhe Huang, Oya Celiktutan
cs.AI
초록
생성 모델은 고정된 수의 에이전트에 대한 모션 합성에서는 뛰어난 성능을 보이지만, 에이전트 수가 가변적인 경우에는 일반화에 어려움을 겪습니다. 제한적이고 도메인 특화된 데이터에 기반한 기존 방법들은 자기회귀 모델을 사용하여 모션을 재귀적으로 생성함으로써 비효율성과 오류 누적 문제에 시달립니다. 본 논문에서는 Pyramid Motion Flow(P-Flow)와 Semi-Noise Motion Flow(S-Flow)로 구성된 통합 모션 흐름(Unified Motion Flow, UMF)을 제안합니다. UMF는 에이전트 수에 구애받지 않는 모션 생성을 단일 패스(single-pass) 모션 사전 생성 단계와 다중 패스(multi-pass) 반응 생성 단계로 분해합니다. 구체적으로, UMF는 통합 잠재 공간을 활용하여 이질적인 모션 데이터셋 간의 분포 차이를 연결함으로써 효과적인 통합 학습을 가능하게 합니다. 모션 사전 생성에는 P-Flow가 다양한 노이즈 수준을 조건으로 계층적 해상도에서 동작하여 계산 오버헤드를 완화합니다. 반응 생성에는 S-Flow가 적응적으로 반응 변환과 맥락 재구성을 수행하는 결합 확률 경로를 학습하여 오류 누적을 경감시킵니다. 광범위한 실험 결과와 사용자 연구는 UMF가 텍스트로부터 다인원 모션을 생성하는 일반 목적 모델(generalist model)로서의 효과성을 입증합니다. 프로젝트 페이지: https://githubhgh.github.io/umf/.
English
Generative models excel at motion synthesis for a fixed number of agents but struggle to generalize with variable agents. Based on limited, domain-specific data, existing methods employ autoregressive models to generate motion recursively, which suffer from inefficiency and error accumulation. We propose Unified Motion Flow (UMF), which consists of Pyramid Motion Flow (P-Flow) and Semi-Noise Motion Flow (S-Flow). UMF decomposes the number-free motion generation into a single-pass motion prior generation stage and multi-pass reaction generation stages. Specifically, UMF utilizes a unified latent space to bridge the distribution gap between heterogeneous motion datasets, enabling effective unified training. For motion prior generation, P-Flow operates on hierarchical resolutions conditioned on different noise levels, thereby mitigating computational overheads. For reaction generation, S-Flow learns a joint probabilistic path that adaptively performs reaction transformation and context reconstruction, alleviating error accumulation. Extensive results and user studies demonstrate UMF' s effectiveness as a generalist model for multi-person motion generation from text. Project page: https://githubhgh.github.io/umf/.