ChatPaper.aiChatPaper

ReMoMask: Генерация маскированных движений с усилением поиском

ReMoMask: Retrieval-Augmented Masked Motion Generation

August 4, 2025
Авторы: Zhengdao Li, Siheng Wang, Zeyu Zhang, Hao Tang
cs.AI

Аннотация

Генерация движения из текста (Text-to-Motion, T2M) направлена на синтез реалистичных и семантически согласованных последовательностей движений человека на основе описаний на естественном языке. Однако современные подходы сталкиваются с двумя основными проблемами: генеративные модели (например, диффузионные модели) страдают от ограниченного разнообразия, накопления ошибок и физической неправдоподобности, тогда как методы генерации с использованием поиска (Retrieval-Augmented Generation, RAG) демонстрируют инерцию диффузии, частичный коллапс мод и асинхронные артефакты. Для преодоления этих ограничений мы предлагаем ReMoMask — унифицированную структуру, объединяющую три ключевых инновации: 1) Двунаправленная модель текста и движения с использованием импульса (Bidirectional Momentum Text-Motion Model) разделяет масштаб отрицательных выборок и размер пакета с помощью очередей импульса, значительно повышая точность кросс-модального поиска; 2) Механизм семантического пространственно-временного внимания (Semantic Spatio-temporal Attention) накладывает биомеханические ограничения на уровне слияния частей для устранения асинхронных артефактов; 3) Гибридный подход RAG-Classier-Free Guidance включает незначительную безусловную генерацию для улучшения обобщения. Основанный на RVQ-VAE модели MoMask, ReMoMask эффективно генерирует временно согласованные движения за минимальное количество шагов. Эксперименты на стандартных тестовых наборах демонстрируют передовые результаты ReMoMask, показывая улучшение показателей FID на 3,88% и 10,97% на наборах данных HumanML3D и KIT-ML соответственно по сравнению с предыдущим методом RAG-T2M. Код: https://github.com/AIGeeksGroup/ReMoMask. Сайт: https://aigeeksgroup.github.io/ReMoMask.
English
Text-to-Motion (T2M) generation aims to synthesize realistic and semantically aligned human motion sequences from natural language descriptions. However, current approaches face dual challenges: Generative models (e.g., diffusion models) suffer from limited diversity, error accumulation, and physical implausibility, while Retrieval-Augmented Generation (RAG) methods exhibit diffusion inertia, partial-mode collapse, and asynchronous artifacts. To address these limitations, we propose ReMoMask, a unified framework integrating three key innovations: 1) A Bidirectional Momentum Text-Motion Model decouples negative sample scale from batch size via momentum queues, substantially improving cross-modal retrieval precision; 2) A Semantic Spatio-temporal Attention mechanism enforces biomechanical constraints during part-level fusion to eliminate asynchronous artifacts; 3) RAG-Classier-Free Guidance incorporates minor unconditional generation to enhance generalization. Built upon MoMask's RVQ-VAE, ReMoMask efficiently generates temporally coherent motions in minimal steps. Extensive experiments on standard benchmarks demonstrate the state-of-the-art performance of ReMoMask, achieving a 3.88% and 10.97% improvement in FID scores on HumanML3D and KIT-ML, respectively, compared to the previous SOTA method RAG-T2M. Code: https://github.com/AIGeeksGroup/ReMoMask. Website: https://aigeeksgroup.github.io/ReMoMask.
PDF22August 5, 2025