Унифицированная генерация текст-в-движение без использования номеров посредством согласования потоков
Unified Number-Free Text-to-Motion Generation Via Flow Matching
March 27, 2026
Авторы: Guanhe Huang, Oya Celiktutan
cs.AI
Аннотация
Генеративные модели преуспевают в синтезе движения для фиксированного числа агентов, но испытывают трудности с обобщением на случай переменного числа агентов. Опираясь на ограниченные, предметно-ориентированные данные, существующие методы используют авторегрессионные модели для рекуррентной генерации движения, что страдает от неэффективности и накопления ошибок. Мы предлагаем Unified Motion Flow (UMF), который состоит из Pyramid Motion Flow (P-Flow) и Semi-Noise Motion Flow (S-Flow). UMF декомпозирует генерацию движения без привязки к количеству агентов на этап однократной генерации априорного движения и этапы многократной генерации реакции. В частности, UMF использует унифицированное латентное пространство для преодоления разрыва распределений между гетерогенными наборами данных о движении, что позволяет проводить эффективное унифицированное обучение. Для генерации априорного движения P-Flow работает с иерархическими разрешениями, обусловленными различными уровнями шума, тем самым снижая вычислительные затраты. Для генерации реакции S-Flow изучает совместный вероятностный путь, который адаптивно выполняет преобразование реакции и реконструкцию контекста, смягчая накопление ошибок. Многочисленные результаты и пользовательские исследования демонстрируют эффективность UMF как модели-универсала для генерации движения нескольких человек из текстового описания. Страница проекта: https://githubhgh.github.io/umf/.
English
Generative models excel at motion synthesis for a fixed number of agents but struggle to generalize with variable agents. Based on limited, domain-specific data, existing methods employ autoregressive models to generate motion recursively, which suffer from inefficiency and error accumulation. We propose Unified Motion Flow (UMF), which consists of Pyramid Motion Flow (P-Flow) and Semi-Noise Motion Flow (S-Flow). UMF decomposes the number-free motion generation into a single-pass motion prior generation stage and multi-pass reaction generation stages. Specifically, UMF utilizes a unified latent space to bridge the distribution gap between heterogeneous motion datasets, enabling effective unified training. For motion prior generation, P-Flow operates on hierarchical resolutions conditioned on different noise levels, thereby mitigating computational overheads. For reaction generation, S-Flow learns a joint probabilistic path that adaptively performs reaction transformation and context reconstruction, alleviating error accumulation. Extensive results and user studies demonstrate UMF' s effectiveness as a generalist model for multi-person motion generation from text. Project page: https://githubhgh.github.io/umf/.