ChatPaper.aiChatPaper

ReMoMask: Generación de Movimiento Enmascarado Aumentada por Recuperación

ReMoMask: Retrieval-Augmented Masked Motion Generation

August 4, 2025
Autores: Zhengdao Li, Siheng Wang, Zeyu Zhang, Hao Tang
cs.AI

Resumen

La generación de Texto a Movimiento (T2M) tiene como objetivo sintetizar secuencias de movimiento humano realistas y semánticamente alineadas a partir de descripciones en lenguaje natural. Sin embargo, los enfoques actuales enfrentan desafíos duales: los modelos generativos (por ejemplo, los modelos de difusión) sufren de diversidad limitada, acumulación de errores e implausibilidad física, mientras que los métodos de Generación Aumentada por Recuperación (RAG) exhiben inercia de difusión, colapso parcial de modos y artefactos asincrónicos. Para abordar estas limitaciones, proponemos ReMoMask, un marco unificado que integra tres innovaciones clave: 1) Un Modelo de Texto-Movimiento de Momento Bidireccional desacopla la escala de muestras negativas del tamaño del lote mediante colas de momento, mejorando sustancialmente la precisión de la recuperación multimodal; 2) Un mecanismo de Atención Espacio-temporal Semántica impone restricciones biomecánicas durante la fusión a nivel de partes para eliminar artefactos asincrónicos; 3) La Guía Libre de Clases RAG incorpora una generación incondicional menor para mejorar la generalización. Basado en el RVQ-VAE de MoMask, ReMoMask genera eficientemente movimientos temporalmente coherentes en un número mínimo de pasos. Experimentos extensos en benchmarks estándar demuestran el rendimiento de vanguardia de ReMoMask, logrando una mejora del 3.88% y 10.97% en las puntuaciones FID en HumanML3D y KIT-ML, respectivamente, en comparación con el método SOTA anterior RAG-T2M. Código: https://github.com/AIGeeksGroup/ReMoMask. Sitio web: https://aigeeksgroup.github.io/ReMoMask.
English
Text-to-Motion (T2M) generation aims to synthesize realistic and semantically aligned human motion sequences from natural language descriptions. However, current approaches face dual challenges: Generative models (e.g., diffusion models) suffer from limited diversity, error accumulation, and physical implausibility, while Retrieval-Augmented Generation (RAG) methods exhibit diffusion inertia, partial-mode collapse, and asynchronous artifacts. To address these limitations, we propose ReMoMask, a unified framework integrating three key innovations: 1) A Bidirectional Momentum Text-Motion Model decouples negative sample scale from batch size via momentum queues, substantially improving cross-modal retrieval precision; 2) A Semantic Spatio-temporal Attention mechanism enforces biomechanical constraints during part-level fusion to eliminate asynchronous artifacts; 3) RAG-Classier-Free Guidance incorporates minor unconditional generation to enhance generalization. Built upon MoMask's RVQ-VAE, ReMoMask efficiently generates temporally coherent motions in minimal steps. Extensive experiments on standard benchmarks demonstrate the state-of-the-art performance of ReMoMask, achieving a 3.88% and 10.97% improvement in FID scores on HumanML3D and KIT-ML, respectively, compared to the previous SOTA method RAG-T2M. Code: https://github.com/AIGeeksGroup/ReMoMask. Website: https://aigeeksgroup.github.io/ReMoMask.
PDF22August 5, 2025