ChatPaper.aiChatPaper

ReMoMask : Génération de mouvements masqués assistée par recherche

ReMoMask: Retrieval-Augmented Masked Motion Generation

August 4, 2025
papers.authors: Zhengdao Li, Siheng Wang, Zeyu Zhang, Hao Tang
cs.AI

papers.abstract

La génération de texte à mouvement (Text-to-Motion, T2M) vise à synthétiser des séquences de mouvements humains réalistes et sémantiquement alignées à partir de descriptions en langage naturel. Cependant, les approches actuelles font face à des défis doubles : les modèles génératifs (par exemple, les modèles de diffusion) souffrent d'une diversité limitée, d'une accumulation d'erreurs et d'une implausibilité physique, tandis que les méthodes de génération augmentée par récupération (Retrieval-Augmented Generation, RAG) présentent une inertie de diffusion, un effondrement partiel des modes et des artefacts asynchrones. Pour surmonter ces limitations, nous proposons ReMoMask, un cadre unifié intégrant trois innovations clés : 1) Un modèle bidirectionnel de texte à mouvement avec momentum découple l'échelle des échantillons négatifs de la taille du lot via des files d'attente de momentum, améliorant considérablement la précision de la récupération intermodale ; 2) Un mécanisme d'attention spatio-temporelle sémantique impose des contraintes biomécaniques lors de la fusion au niveau des parties pour éliminer les artefacts asynchrones ; 3) Le guidage RAG sans classe intègre une génération inconditionnelle mineure pour améliorer la généralisation. Basé sur le RVQ-VAE de MoMask, ReMoMask génère efficacement des mouvements temporellement cohérents en un nombre minimal d'étapes. Des expériences approfondies sur des benchmarks standards démontrent les performances de pointe de ReMoMask, avec une amélioration de 3,88 % et 10,97 % des scores FID sur HumanML3D et KIT-ML, respectivement, par rapport à la méthode SOTA précédente RAG-T2M. Code : https://github.com/AIGeeksGroup/ReMoMask. Site web : https://aigeeksgroup.github.io/ReMoMask.
English
Text-to-Motion (T2M) generation aims to synthesize realistic and semantically aligned human motion sequences from natural language descriptions. However, current approaches face dual challenges: Generative models (e.g., diffusion models) suffer from limited diversity, error accumulation, and physical implausibility, while Retrieval-Augmented Generation (RAG) methods exhibit diffusion inertia, partial-mode collapse, and asynchronous artifacts. To address these limitations, we propose ReMoMask, a unified framework integrating three key innovations: 1) A Bidirectional Momentum Text-Motion Model decouples negative sample scale from batch size via momentum queues, substantially improving cross-modal retrieval precision; 2) A Semantic Spatio-temporal Attention mechanism enforces biomechanical constraints during part-level fusion to eliminate asynchronous artifacts; 3) RAG-Classier-Free Guidance incorporates minor unconditional generation to enhance generalization. Built upon MoMask's RVQ-VAE, ReMoMask efficiently generates temporally coherent motions in minimal steps. Extensive experiments on standard benchmarks demonstrate the state-of-the-art performance of ReMoMask, achieving a 3.88% and 10.97% improvement in FID scores on HumanML3D and KIT-ML, respectively, compared to the previous SOTA method RAG-T2M. Code: https://github.com/AIGeeksGroup/ReMoMask. Website: https://aigeeksgroup.github.io/ReMoMask.
PDF22August 5, 2025