Universele Tekst-naar-Bewegingsgeneratie Zonder Nummering via Stroomkoppeling
Unified Number-Free Text-to-Motion Generation Via Flow Matching
March 27, 2026
Auteurs: Guanhe Huang, Oya Celiktutan
cs.AI
Samenvatting
Generatieve modellen blinken uit in bewegingssynthese voor een vast aantal agenten, maar hebben moeite met generalisatie bij een variabel aantal agenten. Gebaseerd op beperkte, domeinspecifieke data, gebruiken bestaande methodes autoregressieve modellen om beweging recursief te genereren, wat lijdt onder inefficiëntie en foutaccumulatie. Wij stellen Unified Motion Flow (UMF) voor, dat bestaat uit Pyramid Motion Flow (P-Flow) en Semi-Noise Motion Flow (S-Flow). UMF ontbindt het aantal-onafhankelijke bewegingsgeneratie in een eenmalige prior-generatiefase voor beweging en meermalige reactie-generatiefases. Concreet benut UMF een uniforme latente ruimte om de distributiekloof tussen heterogene bewegingsdatasets te overbruggen, wat effectieve uniforme training mogelijk maakt. Voor het genereren van bewegingspriors opereert P-Flow op hiërarchische resoluties, geconditioneerd op verschillende ruisniveaus, waardoor de rekenkosten worden beperkt. Voor reactiegeneratie leert S-Flow een gezamenlijk probabilistisch pad dat adaptief reactietransformatie en contextreconstructie uitvoert, waardoor foutaccumulatie wordt verminderd. Uitgebreide resultaten en gebruikersstudies tonen de effectiviteit van UMF aan als een generalistenmodel voor bewegingsgeneratie van meerdere personen vanuit tekst. Projectpagina: https://githubhgh.github.io/umf/.
English
Generative models excel at motion synthesis for a fixed number of agents but struggle to generalize with variable agents. Based on limited, domain-specific data, existing methods employ autoregressive models to generate motion recursively, which suffer from inefficiency and error accumulation. We propose Unified Motion Flow (UMF), which consists of Pyramid Motion Flow (P-Flow) and Semi-Noise Motion Flow (S-Flow). UMF decomposes the number-free motion generation into a single-pass motion prior generation stage and multi-pass reaction generation stages. Specifically, UMF utilizes a unified latent space to bridge the distribution gap between heterogeneous motion datasets, enabling effective unified training. For motion prior generation, P-Flow operates on hierarchical resolutions conditioned on different noise levels, thereby mitigating computational overheads. For reaction generation, S-Flow learns a joint probabilistic path that adaptively performs reaction transformation and context reconstruction, alleviating error accumulation. Extensive results and user studies demonstrate UMF' s effectiveness as a generalist model for multi-person motion generation from text. Project page: https://githubhgh.github.io/umf/.