절대 좌표는 모션 생성(motion generation)을 쉽게 만듭니다.
Absolute Coordinates Make Motion Generation Easy
May 26, 2025
저자: Zichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang
cs.AI
초록
최첨단 텍스트-모션 생성 모델은 HumanML3D에서 널리 사용된 운동학적 인식(kinematic-aware) 및 로컬 상대 모션 표현에 의존하며, 이는 골반과 이전 프레임에 대한 상대적 모션을 내장된 중복성과 함께 인코딩합니다. 이러한 설계는 초기 생성 모델의 학습을 단순화하지만, 확산 모델(diffusion models)에 있어서는 중요한 한계를 도입하고 하위 작업에의 적용성을 저해합니다. 본 연구에서는 모션 표현을 재검토하고, 텍스트-모션 생성을 위해 글로벌 공간에서의 절대 관절 좌표라는 근본적으로 단순화되고 오랫동안 버려졌던 대안을 제안합니다. 설계 선택에 대한 체계적인 분석을 통해, 우리는 이 표현 방식이 단순한 Transformer 백본과 보조 운동학적 손실 없이도 훨씬 더 높은 모션 충실도, 개선된 텍스트 정렬 및 강력한 확장성을 달성함을 보여줍니다. 더욱이, 우리의 표현 방식은 추가적인 작업별 재설계와 비용이 많이 드는 제어 신호로부터의 분류기 지도 생성 없이도 텍스트 기반 모션 제어 및 시간적/공간적 편집과 같은 하위 작업을 자연스럽게 지원합니다. 마지막으로, 우리는 텍스트로부터 직접 SMPL-H 메쉬 정점을 모션으로 생성하는 유망한 일반화를 보여주며, 향후 연구 및 모션 관련 애플리케이션을 위한 강력한 기반을 마련합니다.
English
State-of-the-art text-to-motion generation models rely on the
kinematic-aware, local-relative motion representation popularized by HumanML3D,
which encodes motion relative to the pelvis and to the previous frame with
built-in redundancy. While this design simplifies training for earlier
generation models, it introduces critical limitations for diffusion models and
hinders applicability to downstream tasks. In this work, we revisit the motion
representation and propose a radically simplified and long-abandoned
alternative for text-to-motion generation: absolute joint coordinates in global
space. Through systematic analysis of design choices, we show that this
formulation achieves significantly higher motion fidelity, improved text
alignment, and strong scalability, even with a simple Transformer backbone and
no auxiliary kinematic-aware losses. Moreover, our formulation naturally
supports downstream tasks such as text-driven motion control and
temporal/spatial editing without additional task-specific reengineering and
costly classifier guidance generation from control signals. Finally, we
demonstrate promising generalization to directly generate SMPL-H mesh vertices
in motion from text, laying a strong foundation for future research and
motion-related applications.Summary
AI-Generated Summary