ReMoMask: Generazione di Movimenti Mascherati Potenziata dal Recupero di Informazioni
ReMoMask: Retrieval-Augmented Masked Motion Generation
August 4, 2025
Autori: Zhengdao Li, Siheng Wang, Zeyu Zhang, Hao Tang
cs.AI
Abstract
La generazione Text-to-Motion (T2M) mira a sintetizzare sequenze di movimento umano realistiche e semanticamente allineate a partire da descrizioni in linguaggio naturale. Tuttavia, gli approcci attuali affrontano una duplice sfida: i modelli generativi (ad esempio, i modelli di diffusione) soffrono di diversità limitata, accumulo di errori e implausibilità fisica, mentre i metodi di Generazione Aumentata con Recupero (RAG) presentano inerzia di diffusione, collasso parziale dei modi e artefatti asincroni. Per superare queste limitazioni, proponiamo ReMoMask, un framework unificato che integra tre innovazioni chiave: 1) Un Modello Bidirezionale Momentum Text-Motion disaccoppia la scala dei campioni negativi dalla dimensione del batch tramite code di momentum, migliorando sostanzialmente la precisione del recupero cross-modale; 2) Un meccanismo di Attenzione Semantica Spazio-temporale applica vincoli biomeccanici durante la fusione a livello di parti per eliminare gli artefatti asincroni; 3) La Guida RAG-Classier-Free incorpora una generazione incondizionata minore per migliorare la generalizzazione. Basato su RVQ-VAE di MoMask, ReMoMask genera in modo efficiente movimenti temporalmente coerenti in un numero minimo di passi. Esperimenti estensivi su benchmark standard dimostrano le prestazioni all'avanguardia di ReMoMask, con un miglioramento del 3,88% e del 10,97% nei punteggi FID su HumanML3D e KIT-ML, rispettivamente, rispetto al precedente metodo SOTA RAG-T2M. Codice: https://github.com/AIGeeksGroup/ReMoMask. Sito web: https://aigeeksgroup.github.io/ReMoMask.
English
Text-to-Motion (T2M) generation aims to synthesize realistic and semantically
aligned human motion sequences from natural language descriptions. However,
current approaches face dual challenges: Generative models (e.g., diffusion
models) suffer from limited diversity, error accumulation, and physical
implausibility, while Retrieval-Augmented Generation (RAG) methods exhibit
diffusion inertia, partial-mode collapse, and asynchronous artifacts. To
address these limitations, we propose ReMoMask, a unified framework integrating
three key innovations: 1) A Bidirectional Momentum Text-Motion Model decouples
negative sample scale from batch size via momentum queues, substantially
improving cross-modal retrieval precision; 2) A Semantic Spatio-temporal
Attention mechanism enforces biomechanical constraints during part-level fusion
to eliminate asynchronous artifacts; 3) RAG-Classier-Free Guidance incorporates
minor unconditional generation to enhance generalization. Built upon MoMask's
RVQ-VAE, ReMoMask efficiently generates temporally coherent motions in minimal
steps. Extensive experiments on standard benchmarks demonstrate the
state-of-the-art performance of ReMoMask, achieving a 3.88% and 10.97%
improvement in FID scores on HumanML3D and KIT-ML, respectively, compared to
the previous SOTA method RAG-T2M. Code:
https://github.com/AIGeeksGroup/ReMoMask. Website:
https://aigeeksgroup.github.io/ReMoMask.