## 조밀한 동작 캡션화
Dense Motion Captioning
November 7, 2025
저자: Shiyao Xu, Benedetta Liberatori, Gül Varol, Paolo Rota
cs.AI
초록
3D 인간 모션과 언어의 통합에 관한 최근 연구는 주로 텍스트-모션 생성에 집중되어 왔으며, 모션 이해 과제는 상대적으로 덜 탐구된 상태입니다. 본 연구에서는 3D 인간 모션 시퀀스 내에서 동작을 시간적으로 지역화하고 설명하는 새로운 과제인 Dense Motion Captioning을 소개합니다. 기존 데이터셋은 상세한 시간적 주석을 제공하지 않으며 대부분 소수의 동작만을 포함하는 짧은 시퀀스로 구성되어 있습니다. 이러한 한계를 극복하기 위해 우리는 정밀한 시간적 경계가 포함된 풍부한 주석이 달린 복잡한 모션 시퀀스로 구성된 최초의 대규모 데이터셋인 Complex Motion Dataset(CompMo)을 제안합니다. 신중하게 설계된 데이터 생성 파이프라인을 통해 구축된 CompMo는 최소 2개에서 최대 10개에 이르는 다중 동작으로 구성된 60,000개의 모션 시퀀스를 포함하며, 각 동작은 정확한 시간 범위 주석이 달려 있습니다. 또한 우리는 밀집된 시간 기반 캡션 생성을 위해 훈련된 대형 언어 모델과 단순한 모션 어댑터를 통합한 DEMO 모델을 제시합니다. 실험 결과, DEMO는 CompMo 및 적응된 벤치마크에서 기존 방법들을 크게 능가하며, 3D 모션 이해 및 캡션 생성 분야의 향후 연구를 위한 견고한 기준을 마련합니다.
English
Recent advances in 3D human motion and language integration have primarily
focused on text-to-motion generation, leaving the task of motion understanding
relatively unexplored. We introduce Dense Motion Captioning, a novel task that
aims to temporally localize and caption actions within 3D human motion
sequences. Current datasets fall short in providing detailed temporal
annotations and predominantly consist of short sequences featuring few actions.
To overcome these limitations, we present the Complex Motion Dataset (CompMo),
the first large-scale dataset featuring richly annotated, complex motion
sequences with precise temporal boundaries. Built through a carefully designed
data generation pipeline, CompMo includes 60,000 motion sequences, each
composed of multiple actions ranging from at least two to ten, accurately
annotated with their temporal extents. We further present DEMO, a model that
integrates a large language model with a simple motion adapter, trained to
generate dense, temporally grounded captions. Our experiments show that DEMO
substantially outperforms existing methods on CompMo as well as on adapted
benchmarks, establishing a robust baseline for future research in 3D motion
understanding and captioning.