ReMoMask: Генерация маскированных движений с усилением поиском
ReMoMask: Retrieval-Augmented Masked Motion Generation
August 4, 2025
Авторы: Zhengdao Li, Siheng Wang, Zeyu Zhang, Hao Tang
cs.AI
Аннотация
Генерация движения из текста (Text-to-Motion, T2M) направлена на синтез реалистичных и семантически согласованных последовательностей движений человека на основе описаний на естественном языке. Однако современные подходы сталкиваются с двумя основными проблемами: генеративные модели (например, диффузионные модели) страдают от ограниченного разнообразия, накопления ошибок и физической неправдоподобности, тогда как методы генерации с использованием поиска (Retrieval-Augmented Generation, RAG) демонстрируют инерцию диффузии, частичный коллапс мод и асинхронные артефакты. Для преодоления этих ограничений мы предлагаем ReMoMask — унифицированную структуру, объединяющую три ключевых инновации: 1) Двунаправленная модель текста и движения с использованием импульса (Bidirectional Momentum Text-Motion Model) разделяет масштаб отрицательных выборок и размер пакета с помощью очередей импульса, значительно повышая точность кросс-модального поиска; 2) Механизм семантического пространственно-временного внимания (Semantic Spatio-temporal Attention) накладывает биомеханические ограничения на уровне слияния частей для устранения асинхронных артефактов; 3) Гибридный подход RAG-Classier-Free Guidance включает незначительную безусловную генерацию для улучшения обобщения. Основанный на RVQ-VAE модели MoMask, ReMoMask эффективно генерирует временно согласованные движения за минимальное количество шагов. Эксперименты на стандартных тестовых наборах демонстрируют передовые результаты ReMoMask, показывая улучшение показателей FID на 3,88% и 10,97% на наборах данных HumanML3D и KIT-ML соответственно по сравнению с предыдущим методом RAG-T2M. Код: https://github.com/AIGeeksGroup/ReMoMask. Сайт: https://aigeeksgroup.github.io/ReMoMask.
English
Text-to-Motion (T2M) generation aims to synthesize realistic and semantically
aligned human motion sequences from natural language descriptions. However,
current approaches face dual challenges: Generative models (e.g., diffusion
models) suffer from limited diversity, error accumulation, and physical
implausibility, while Retrieval-Augmented Generation (RAG) methods exhibit
diffusion inertia, partial-mode collapse, and asynchronous artifacts. To
address these limitations, we propose ReMoMask, a unified framework integrating
three key innovations: 1) A Bidirectional Momentum Text-Motion Model decouples
negative sample scale from batch size via momentum queues, substantially
improving cross-modal retrieval precision; 2) A Semantic Spatio-temporal
Attention mechanism enforces biomechanical constraints during part-level fusion
to eliminate asynchronous artifacts; 3) RAG-Classier-Free Guidance incorporates
minor unconditional generation to enhance generalization. Built upon MoMask's
RVQ-VAE, ReMoMask efficiently generates temporally coherent motions in minimal
steps. Extensive experiments on standard benchmarks demonstrate the
state-of-the-art performance of ReMoMask, achieving a 3.88% and 10.97%
improvement in FID scores on HumanML3D and KIT-ML, respectively, compared to
the previous SOTA method RAG-T2M. Code:
https://github.com/AIGeeksGroup/ReMoMask. Website:
https://aigeeksgroup.github.io/ReMoMask.