ReMoMask: Generazione di Movimenti Mascherati Potenziata dal Recupero di Informazioni

Abstract

La generazione Text-to-Motion (T2M) mira a sintetizzare sequenze di movimento umano realistiche e semanticamente allineate a partire da descrizioni in linguaggio naturale. Tuttavia, gli approcci attuali affrontano una duplice sfida: i modelli generativi (ad esempio, i modelli di diffusione) soffrono di diversità limitata, accumulo di errori e implausibilità fisica, mentre i metodi di Generazione Aumentata con Recupero (RAG) presentano inerzia di diffusione, collasso parziale dei modi e artefatti asincroni. Per superare queste limitazioni, proponiamo ReMoMask, un framework unificato che integra tre innovazioni chiave: 1) Un Modello Bidirezionale Momentum Text-Motion disaccoppia la scala dei campioni negativi dalla dimensione del batch tramite code di momentum, migliorando sostanzialmente la precisione del recupero cross-modale; 2) Un meccanismo di Attenzione Semantica Spazio-temporale applica vincoli biomeccanici durante la fusione a livello di parti per eliminare gli artefatti asincroni; 3) La Guida RAG-Classier-Free incorpora una generazione incondizionata minore per migliorare la generalizzazione. Basato su RVQ-VAE di MoMask, ReMoMask genera in modo efficiente movimenti temporalmente coerenti in un numero minimo di passi. Esperimenti estensivi su benchmark standard dimostrano le prestazioni all'avanguardia di ReMoMask, con un miglioramento del 3,88% e del 10,97% nei punteggi FID su HumanML3D e KIT-ML, rispettivamente, rispetto al precedente metodo SOTA RAG-T2M. Codice: https://github.com/AIGeeksGroup/ReMoMask. Sito web: https://aigeeksgroup.github.io/ReMoMask.

English

Text-to-Motion (T2M) generation aims to synthesize realistic and semantically aligned human motion sequences from natural language descriptions. However, current approaches face dual challenges: Generative models (e.g., diffusion models) suffer from limited diversity, error accumulation, and physical implausibility, while Retrieval-Augmented Generation (RAG) methods exhibit diffusion inertia, partial-mode collapse, and asynchronous artifacts. To address these limitations, we propose ReMoMask, a unified framework integrating three key innovations: 1) A Bidirectional Momentum Text-Motion Model decouples negative sample scale from batch size via momentum queues, substantially improving cross-modal retrieval precision; 2) A Semantic Spatio-temporal Attention mechanism enforces biomechanical constraints during part-level fusion to eliminate asynchronous artifacts; 3) RAG-Classier-Free Guidance incorporates minor unconditional generation to enhance generalization. Built upon MoMask's RVQ-VAE, ReMoMask efficiently generates temporally coherent motions in minimal steps. Extensive experiments on standard benchmarks demonstrate the state-of-the-art performance of ReMoMask, achieving a 3.88% and 10.97% improvement in FID scores on HumanML3D and KIT-ML, respectively, compared to the previous SOTA method RAG-T2M. Code: https://github.com/AIGeeksGroup/ReMoMask. Website: https://aigeeksgroup.github.io/ReMoMask.

ReMoMask: Generazione di Movimenti Mascherati Potenziata dal Recupero di Informazioni

ReMoMask: Retrieval-Augmented Masked Motion Generation

Abstract

Support