ChatPaper.aiChatPaper

Absolute Coördinaten Maken Bewegingsgeneratie Eenvoudig

Absolute Coordinates Make Motion Generation Easy

May 26, 2025
Auteurs: Zichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang
cs.AI

Samenvatting

State-of-the-art modellen voor tekst-naar-beweging generatie vertrouwen op de kinematisch-bewuste, lokaal-relatieve bewegingsrepresentatie die populair is gemaakt door HumanML3D. Deze representatie codeert beweging relatief ten opzichte van het bekken en het vorige frame, met ingebouwde redundantie. Hoewel dit ontwerp het trainen van eerdere generatiemodellen vereenvoudigt, introduceert het kritieke beperkingen voor diffusiemodellen en belemmert het de toepasbaarheid voor downstream taken. In dit werk herzien we de bewegingsrepresentatie en stellen we een radicaal vereenvoudigd en lang verlaten alternatief voor voor tekst-naar-beweging generatie: absolute gewrichtscoördinaten in de globale ruimte. Door een systematische analyse van ontwerpkeuzes tonen we aan dat deze formulering aanzienlijk hogere bewegingsfideliteit, verbeterde tekstuitlijning en sterke schaalbaarheid bereikt, zelfs met een eenvoudige Transformer-architectuur en zonder aanvullende kinematisch-bewuste verliesfuncties. Bovendien ondersteunt onze formulering natuurlijk downstream taken zoals tekstgestuurde bewegingscontrole en temporele/spatiale bewerking zonder aanvullende taakspecifieke herontwikkeling en kostbare classifier-gestuurde generatie vanuit controlesignalen. Tot slot demonstreren we veelbelovende generalisatie om direct SMPL-H mesh vertices in beweging te genereren vanuit tekst, wat een sterke basis legt voor toekomstig onderzoek en bewegingsgerelateerde toepassingen.
English
State-of-the-art text-to-motion generation models rely on the kinematic-aware, local-relative motion representation popularized by HumanML3D, which encodes motion relative to the pelvis and to the previous frame with built-in redundancy. While this design simplifies training for earlier generation models, it introduces critical limitations for diffusion models and hinders applicability to downstream tasks. In this work, we revisit the motion representation and propose a radically simplified and long-abandoned alternative for text-to-motion generation: absolute joint coordinates in global space. Through systematic analysis of design choices, we show that this formulation achieves significantly higher motion fidelity, improved text alignment, and strong scalability, even with a simple Transformer backbone and no auxiliary kinematic-aware losses. Moreover, our formulation naturally supports downstream tasks such as text-driven motion control and temporal/spatial editing without additional task-specific reengineering and costly classifier guidance generation from control signals. Finally, we demonstrate promising generalization to directly generate SMPL-H mesh vertices in motion from text, laying a strong foundation for future research and motion-related applications.
PDF32May 28, 2025