Generazione Unificata di Testo-Movimento Senza Numeri Tramite Flow Matching

Abstract

I modelli generativi eccellono nella sintesi del movimento per un numero fisso di agenti, ma faticano a generalizzare con un numero variabile di agenti. Basandosi su dati limitati e specifici del dominio, i metodi esistenti impiegano modelli autoregressivi per generare il movimento in modo ricorsivo, i quali soffrono di inefficienza e accumulo di errori. Proponiamo Unified Motion Flow (UMF), che consiste in Pyramid Motion Flow (P-Flow) e Semi-Noise Motion Flow (S-Flow). L'UMF scompone la generazione di movimento indipendente dal numero di agenti in una fase di generazione dell'*a priori* di movimento in passaggio singolo e in fasi di generazione della reazione a passaggi multipli. Nello specifico, l'UMF utilizza uno spazio latente unificato per colmare il divario distributivo tra dataset di movimento eterogenei, consentendo un addestramento unificato efficace. Per la generazione dell'*a priori* di movimento, il P-Flow opera su risoluzioni gerarchiche condizionate da diversi livelli di rumore, mitigando così i sovraccarichi computazionali. Per la generazione della reazione, il S-Flow apprende un percorso probabilistico congiunto che esegue in modo adattivo la trasformazione della reazione e la ricostruzione del contesto, alleviando l'accumulo di errori. Risultati estensivi e studi utente dimostrano l'efficacia di UMF come modello generalista per la generazione del movimento multi-persona a partire da testo. Pagina del progetto: https://githubhgh.github.io/umf/.

English

Generative models excel at motion synthesis for a fixed number of agents but struggle to generalize with variable agents. Based on limited, domain-specific data, existing methods employ autoregressive models to generate motion recursively, which suffer from inefficiency and error accumulation. We propose Unified Motion Flow (UMF), which consists of Pyramid Motion Flow (P-Flow) and Semi-Noise Motion Flow (S-Flow). UMF decomposes the number-free motion generation into a single-pass motion prior generation stage and multi-pass reaction generation stages. Specifically, UMF utilizes a unified latent space to bridge the distribution gap between heterogeneous motion datasets, enabling effective unified training. For motion prior generation, P-Flow operates on hierarchical resolutions conditioned on different noise levels, thereby mitigating computational overheads. For reaction generation, S-Flow learns a joint probabilistic path that adaptively performs reaction transformation and context reconstruction, alleviating error accumulation. Extensive results and user studies demonstrate UMF' s effectiveness as a generalist model for multi-person motion generation from text. Project page: https://githubhgh.github.io/umf/.

Generazione Unificata di Testo-Movimento Senza Numeri Tramite Flow Matching

Unified Number-Free Text-to-Motion Generation Via Flow Matching

Abstract

Support