ChatPaper.aiChatPaper

Generación Unificada de Texto a Movimiento Sin Numeración mediante Emparejamiento de Flujos

Unified Number-Free Text-to-Motion Generation Via Flow Matching

March 27, 2026
Autores: Guanhe Huang, Oya Celiktutan
cs.AI

Resumen

Los modelos generativos sobresalen en la síntesis de movimiento para un número fijo de agentes, pero tienen dificultades para generalizar con un número variable. Basándose en datos limitados y específicos de dominio, los métodos existentes emplean modelos autoregresivos para generar movimiento de forma recursiva, lo que adolece de ineficiencia y acumulación de errores. Proponemos Unified Motion Flow (UMF), que consiste en Pyramid Motion Flow (P-Flow) y Semi-Noise Motion Flow (S-Flow). UMF descompone la generación de movimiento independiente del número de agentes en una etapa de generación de prior de movimiento de pasada única y etapas de generación de reacción de pasadas múltiples. Específicamente, UMF utiliza un espacio latente unificado para salvar la brecha de distribución entre conjuntos de datos de movimiento heterogéneos, permitiendo un entrenamiento unificado efectivo. Para la generación del prior de movimiento, P-Flow opera en resoluciones jerárquicas condicionadas por diferentes niveles de ruido, mitigando así la sobrecarga computacional. Para la generación de reacción, S-Flow aprende una trayectoria probabilística conjunta que realiza de forma adaptativa la transformación de la reacción y la reconstrucción del contexto, aliviando la acumulación de errores. Resultados exhaustivos y estudios de usuario demuestran la efectividad de UMF como modelo generalista para la generación de movimiento multi-persona a partir de texto. Página del proyecto: https://githubhgh.github.io/umf/.
English
Generative models excel at motion synthesis for a fixed number of agents but struggle to generalize with variable agents. Based on limited, domain-specific data, existing methods employ autoregressive models to generate motion recursively, which suffer from inefficiency and error accumulation. We propose Unified Motion Flow (UMF), which consists of Pyramid Motion Flow (P-Flow) and Semi-Noise Motion Flow (S-Flow). UMF decomposes the number-free motion generation into a single-pass motion prior generation stage and multi-pass reaction generation stages. Specifically, UMF utilizes a unified latent space to bridge the distribution gap between heterogeneous motion datasets, enabling effective unified training. For motion prior generation, P-Flow operates on hierarchical resolutions conditioned on different noise levels, thereby mitigating computational overheads. For reaction generation, S-Flow learns a joint probabilistic path that adaptively performs reaction transformation and context reconstruction, alleviating error accumulation. Extensive results and user studies demonstrate UMF' s effectiveness as a generalist model for multi-person motion generation from text. Project page: https://githubhgh.github.io/umf/.
PDF21April 1, 2026