Vereinheitlichte nummernfreie Text-zu-Bewegungs-Generierung mittels Flow Matching
Unified Number-Free Text-to-Motion Generation Via Flow Matching
March 27, 2026
Autoren: Guanhe Huang, Oya Celiktutan
cs.AI
Zusammenfassung
Generative Modelle sind hervorragend in der Bewegungssynthese für eine festgelegte Anzahl von Agenten, haben jedoch Schwierigkeiten, sich auf variable Agentenzahlen zu verallgemeinern. Basierend auf begrenzten, domänenspezifischen Daten verwenden bestehende Methoden autoregressive Modelle, um Bewegungen rekursiv zu erzeugen, was unter Ineffizienz und Fehlerakkumulation leidet. Wir schlagen Unified Motion Flow (UMF) vor, das aus Pyramid Motion Flow (P-Flow) und Semi-Noise Motion Flow (S-Flow) besteht. UMF zerlegt die anzahlunabhängige Bewegungsgenerierung in eine Einzel-Durchlauf-Stufe zur Erzeugung einer Bewegungs-Prior und mehrere Durchläufe zur Reaktionsgenerierung. Konkret nutzt UMF einen einheitlichen latenten Raum, um die Verteilungslücke zwischen heterogenen Bewegungsdatensätzen zu überbrücken und so effektives vereinheitlichtes Training zu ermöglichen. Für die Bewegungs-Prior-Generierung operiert P-Flow auf hierarchischen Auflösungen, die von verschiedenen Rauschpegeln abhängen, wodurch Rechenaufwand verringert wird. Für die Reaktionsgenerierung lernt S-Flow einen gemeinsamen probabilistischen Pfad, der adaptiv Reaktionstransformation und Kontextrekonstruktion durchführt und so die Fehlerakkumulation mildert. Umfangreiche Ergebnisse und Nutzerstudien belegen die Wirksamkeit von UMF als Generalisten-Modell für die Text-zu-Bewegungs-Generierung mehrerer Personen. Projektseite: https://githubhgh.github.io/umf/.
English
Generative models excel at motion synthesis for a fixed number of agents but struggle to generalize with variable agents. Based on limited, domain-specific data, existing methods employ autoregressive models to generate motion recursively, which suffer from inefficiency and error accumulation. We propose Unified Motion Flow (UMF), which consists of Pyramid Motion Flow (P-Flow) and Semi-Noise Motion Flow (S-Flow). UMF decomposes the number-free motion generation into a single-pass motion prior generation stage and multi-pass reaction generation stages. Specifically, UMF utilizes a unified latent space to bridge the distribution gap between heterogeneous motion datasets, enabling effective unified training. For motion prior generation, P-Flow operates on hierarchical resolutions conditioned on different noise levels, thereby mitigating computational overheads. For reaction generation, S-Flow learns a joint probabilistic path that adaptively performs reaction transformation and context reconstruction, alleviating error accumulation. Extensive results and user studies demonstrate UMF' s effectiveness as a generalist model for multi-person motion generation from text. Project page: https://githubhgh.github.io/umf/.