ReMoMask: 검색 기반 마스크된 모션 생성
ReMoMask: Retrieval-Augmented Masked Motion Generation
August 4, 2025
저자: Zhengdao Li, Siheng Wang, Zeyu Zhang, Hao Tang
cs.AI
초록
텍스트-모션(T2M) 생성은 자연어 설명으로부터 사실적이고 의미론적으로 정렬된 인간 동작 시퀀스를 합성하는 것을 목표로 합니다. 그러나 현재의 접근 방식은 이중의 도전에 직면해 있습니다: 생성 모델(예: 확산 모델)은 제한된 다양성, 오류 누적 및 물리적 비현실성으로 어려움을 겪는 반면, 검색-증강 생성(RAG) 방법은 확산 관성, 부분적 모드 붕괴 및 비동기적 아티팩트를 보입니다. 이러한 한계를 해결하기 위해, 우리는 ReMoMask를 제안합니다. 이는 세 가지 주요 혁신을 통합한 통합 프레임워크입니다: 1) 양방향 모멘텀 텍스트-모션 모델은 모멘텀 큐를 통해 배치 크기와 부정적 샘플 규모를 분리하여 교차 모달 검색 정밀도를 크게 향상시킵니다; 2) 의미론적 시공간 주의 메커니즘은 부분 수준 융합 중 생체역학적 제약을 강제하여 비동기적 아티팩트를 제거합니다; 3) RAG-클래스리어-프리 가이던스는 무조건적 생성을 소량 포함하여 일반화를 강화합니다. MoMask의 RVQ-VAE를 기반으로 구축된 ReMoMask는 최소한의 단계로 시간적으로 일관된 동작을 효율적으로 생성합니다. 표준 벤치마크에 대한 광범위한 실험은 ReMoMask의 최첨단 성능을 입증하며, 이전 SOTA 방법인 RAG-T2M에 비해 HumanML3D와 KIT-ML에서 각각 3.88%와 10.97%의 FID 점수 향상을 달성했습니다. 코드: https://github.com/AIGeeksGroup/ReMoMask. 웹사이트: https://aigeeksgroup.github.io/ReMoMask.
English
Text-to-Motion (T2M) generation aims to synthesize realistic and semantically
aligned human motion sequences from natural language descriptions. However,
current approaches face dual challenges: Generative models (e.g., diffusion
models) suffer from limited diversity, error accumulation, and physical
implausibility, while Retrieval-Augmented Generation (RAG) methods exhibit
diffusion inertia, partial-mode collapse, and asynchronous artifacts. To
address these limitations, we propose ReMoMask, a unified framework integrating
three key innovations: 1) A Bidirectional Momentum Text-Motion Model decouples
negative sample scale from batch size via momentum queues, substantially
improving cross-modal retrieval precision; 2) A Semantic Spatio-temporal
Attention mechanism enforces biomechanical constraints during part-level fusion
to eliminate asynchronous artifacts; 3) RAG-Classier-Free Guidance incorporates
minor unconditional generation to enhance generalization. Built upon MoMask's
RVQ-VAE, ReMoMask efficiently generates temporally coherent motions in minimal
steps. Extensive experiments on standard benchmarks demonstrate the
state-of-the-art performance of ReMoMask, achieving a 3.88% and 10.97%
improvement in FID scores on HumanML3D and KIT-ML, respectively, compared to
the previous SOTA method RAG-T2M. Code:
https://github.com/AIGeeksGroup/ReMoMask. Website:
https://aigeeksgroup.github.io/ReMoMask.