Descrizione Densa del Movimento
Dense Motion Captioning
November 7, 2025
Autori: Shiyao Xu, Benedetta Liberatori, Gül Varol, Paolo Rota
cs.AI
Abstract
I recenti progressi nell'integrazione tra movimento umano 3D e linguaggio si sono principalmente concentrati sulla generazione di movimento a partire da testo, lasciando il compito della comprensione del movimento relativamente inesplorato. Introduciamo la Dense Motion Captioning, un nuovo compito che mira a localizzare temporalmente e descrivere le azioni all'interno di sequenze di movimento umano 3D. I dataset attuali sono carenti nel fornire annotazioni temporali dettagliate e sono composti prevalentemente da sequenze brevi con poche azioni. Per superare queste limitazioni, presentiamo il Complex Motion Dataset (CompMo), il primo dataset su larga scala che presenta sequenze di movimento complesse, riccamente annotate con precisi confini temporali. Costruito attraverso una pipeline di generazione dati accuratamente progettata, CompMo include 60.000 sequenze di movimento, ciascuna composta da azioni multiple che vanno da un minimo di due a un massimo di dieci, annotate accuratamente con le loro estensioni temporali. Presentiamo inoltre DEMO, un modello che integra un large language model con un semplice adattatore per il movimento, addestrato per generare descrizioni dense e temporalmente ancorate. I nostri esperimenti mostrano che DEMO supera sostanzialmente i metodi esistenti sia su CompMo che su benchmark adattati, stabilendo una solida baseline per la ricerca futura nella comprensione e descrizione del movimento 3D.
English
Recent advances in 3D human motion and language integration have primarily
focused on text-to-motion generation, leaving the task of motion understanding
relatively unexplored. We introduce Dense Motion Captioning, a novel task that
aims to temporally localize and caption actions within 3D human motion
sequences. Current datasets fall short in providing detailed temporal
annotations and predominantly consist of short sequences featuring few actions.
To overcome these limitations, we present the Complex Motion Dataset (CompMo),
the first large-scale dataset featuring richly annotated, complex motion
sequences with precise temporal boundaries. Built through a carefully designed
data generation pipeline, CompMo includes 60,000 motion sequences, each
composed of multiple actions ranging from at least two to ten, accurately
annotated with their temporal extents. We further present DEMO, a model that
integrates a large language model with a simple motion adapter, trained to
generate dense, temporally grounded captions. Our experiments show that DEMO
substantially outperforms existing methods on CompMo as well as on adapted
benchmarks, establishing a robust baseline for future research in 3D motion
understanding and captioning.