ChatPaper.aiChatPaper

Génération unifiée de texte vers mouvement sans numérotation par appariement de flux

Unified Number-Free Text-to-Motion Generation Via Flow Matching

March 27, 2026
Auteurs: Guanhe Huang, Oya Celiktutan
cs.AI

Résumé

Les modèles génératifs excellent dans la synthèse de mouvements pour un nombre fixe d'agents mais peinent à généraliser avec un nombre variable d'agents. Basées sur des données limitées et spécifiques à un domaine, les méthodes existantes utilisent des modèles autorégressifs pour générer du mouvement de manière récursive, ce qui entraîne des problèmes d'inefficacité et d'accumulation d'erreurs. Nous proposons Unified Motion Flow (UMF), qui comprend Pyramid Motion Flow (P-Flow) et Semi-Noise Motion Flow (S-Flow). UMF décompose la génération de mouvements indépendante du nombre en une étape de génération de priorité motrice en une passe unique et des étapes de génération de réaction en passes multiples. Concrètement, UMF utilise un espace latent unifié pour combler l'écart de distribution entre les ensembles de données hétérogènes de mouvements, permettant un entraînement unifié efficace. Pour la génération de priorité motrice, P-Flow opère sur des résolutions hiérarchiques conditionnées par différents niveaux de bruit, réduisant ainsi la surcharge computationnelle. Pour la génération de réaction, S-Flow apprend un chemin probabiliste conjoint qui effectue de manière adaptative la transformation de réaction et la reconstruction du contexte, atténuant l'accumulation d'erreurs. Des résultats approfondis et des études utilisateurs démontrent l'efficacité d'UMF en tant que modèle généraliste pour la génération de mouvements multi-personnes à partir de texte. Page du projet : https://githubhgh.github.io/umf/.
English
Generative models excel at motion synthesis for a fixed number of agents but struggle to generalize with variable agents. Based on limited, domain-specific data, existing methods employ autoregressive models to generate motion recursively, which suffer from inefficiency and error accumulation. We propose Unified Motion Flow (UMF), which consists of Pyramid Motion Flow (P-Flow) and Semi-Noise Motion Flow (S-Flow). UMF decomposes the number-free motion generation into a single-pass motion prior generation stage and multi-pass reaction generation stages. Specifically, UMF utilizes a unified latent space to bridge the distribution gap between heterogeneous motion datasets, enabling effective unified training. For motion prior generation, P-Flow operates on hierarchical resolutions conditioned on different noise levels, thereby mitigating computational overheads. For reaction generation, S-Flow learns a joint probabilistic path that adaptively performs reaction transformation and context reconstruction, alleviating error accumulation. Extensive results and user studies demonstrate UMF' s effectiveness as a generalist model for multi-person motion generation from text. Project page: https://githubhgh.github.io/umf/.
PDF21April 1, 2026