프랑켄모션: 부위별 인간 동작 생성 및 합성
FrankenMotion: Part-level Human Motion Generation and Composition
January 15, 2026
저자: Chuqiao Li, Xianghui Xie, Yong Cao, Andreas Geiger, Gerard Pons-Moll
cs.AI
초록
텍스트 프롬프트 기반 인간 동작 생성은 최근 몇 년 동안 눈에 띄는 발전을 이루었습니다. 그러나 기존 방법들은 세밀한 부분 수준의 동작 주석 부족으로 인해 주로 시퀀스 수준 또는 액션 수준의 설명에 의존해 왔습니다. 이는 개별 신체 부위에 대한 제어 가능성을 제한합니다. 본 연구에서는 대규모 언어 모델(LLM)의 추론 능력을 활용하여 원자적이고 시간 인식적인 부분 수준의 텍스트 주석이 포함된 고품질 동작 데이터셋을 구축합니다. 고정된 시간 세그먼트로 동기화된 부분 캡션을 제공하거나 전역 시퀀스 라벨에만 의존하는 기존 데이터셋과 달리, 우리의 데이터셋은 정교한 시간 해상도로 비동기적이고 의미론적으로 구분되는 부분 동작을 포착합니다. 이 데이터셋을 바탕으로 각 신체 부위가 자체적인 시간 구조화 텍스트 프롬프트의 지도를 받는 디퓨전 기반 부분 인식 동작 생성 프레임워크인 FrankenMotion을 소개합니다. 이는 우리가 아는 한 원자적이고 시간 인식적인 부분 수준 동작 주석을 제공하며 공간적(신체 부위) 및 시간적(원자적 액션) 제어가 모두 가능한 동작 생성을 허용하는 최초의 모델입니다. 실험 결과, FrankenMotion은 우리의 설정에 맞게 수정 및 재학습된 모든 기존 베이스라인 모델을 능가하며, 우리 모델은 학습 과정에서 보지 못한 동작을 구성할 수 있음을 보여줍니다. 우리의 코드와 데이터셋은 논문 게재 시 공개될 예정입니다.
English
Human motion generation from text prompts has made remarkable progress in recent years. However, existing methods primarily rely on either sequence-level or action-level descriptions due to the absence of fine-grained, part-level motion annotations. This limits their controllability over individual body parts. In this work, we construct a high-quality motion dataset with atomic, temporally-aware part-level text annotations, leveraging the reasoning capabilities of large language models (LLMs). Unlike prior datasets that either provide synchronized part captions with fixed time segments or rely solely on global sequence labels, our dataset captures asynchronous and semantically distinct part movements at fine temporal resolution. Based on this dataset, we introduce a diffusion-based part-aware motion generation framework, namely FrankenMotion, where each body part is guided by its own temporally-structured textual prompt. This is, to our knowledge, the first work to provide atomic, temporally-aware part-level motion annotations and have a model that allows motion generation with both spatial (body part) and temporal (atomic action) control. Experiments demonstrate that FrankenMotion outperforms all previous baseline models adapted and retrained for our setting, and our model can compose motions unseen during training. Our code and dataset will be publicly available upon publication.