Geração Unificada de Texto para Movimento Livre de Números via Correspondência de Fluxo

Resumo

Os modelos generativos destacam-se na síntese de movimento para um número fixo de agentes, mas lutam para generalizar com quantidades variáveis de agentes. Com base em dados limitados e específicos de domínio, os métodos existentes empregam modelos autoregressivos para gerar movimento recursivamente, o que sofre de ineficiência e acumulação de erros. Propomos o Unified Motion Flow (UMF), que consiste no Pyramid Motion Flow (P-Flow) e no Semi-Noise Motion Flow (S-Flow). O UMF decompõe a geração de movimento independente do número de agentes em um estágio de geração de prior de movimento de passagem única e estágios de geração de reação de múltiplas passagens. Especificamente, o UMF utiliza um espaço latente unificado para preencher a lacuna de distribuição entre conjuntos de dados de movimento heterogéneos, permitindo um treinamento unificado eficaz. Para a geração de prior de movimento, o P-Flow opera em resoluções hierárquicas condicionadas a diferentes níveis de ruído, mitigando assim os custos computacionais. Para a geração de reação, o S-Flow aprende um caminho probabilístico conjunto que executa adaptativamente a transformação de reação e a reconstrução de contexto, aliviando a acumulação de erros. Resultados extensivos e estudos de utilizador demonstram a eficácia do UMF como um modelo generalista para a geração de movimento multi-pessoa a partir de texto. Página do projeto: https://githubhgh.github.io/umf/.

English

Generative models excel at motion synthesis for a fixed number of agents but struggle to generalize with variable agents. Based on limited, domain-specific data, existing methods employ autoregressive models to generate motion recursively, which suffer from inefficiency and error accumulation. We propose Unified Motion Flow (UMF), which consists of Pyramid Motion Flow (P-Flow) and Semi-Noise Motion Flow (S-Flow). UMF decomposes the number-free motion generation into a single-pass motion prior generation stage and multi-pass reaction generation stages. Specifically, UMF utilizes a unified latent space to bridge the distribution gap between heterogeneous motion datasets, enabling effective unified training. For motion prior generation, P-Flow operates on hierarchical resolutions conditioned on different noise levels, thereby mitigating computational overheads. For reaction generation, S-Flow learns a joint probabilistic path that adaptively performs reaction transformation and context reconstruction, alleviating error accumulation. Extensive results and user studies demonstrate UMF' s effectiveness as a generalist model for multi-person motion generation from text. Project page: https://githubhgh.github.io/umf/.