Descrizione Densa del Movimento

Abstract

I recenti progressi nell'integrazione tra movimento umano 3D e linguaggio si sono principalmente concentrati sulla generazione di movimento a partire da testo, lasciando il compito della comprensione del movimento relativamente inesplorato. Introduciamo la Dense Motion Captioning, un nuovo compito che mira a localizzare temporalmente e descrivere le azioni all'interno di sequenze di movimento umano 3D. I dataset attuali sono carenti nel fornire annotazioni temporali dettagliate e sono composti prevalentemente da sequenze brevi con poche azioni. Per superare queste limitazioni, presentiamo il Complex Motion Dataset (CompMo), il primo dataset su larga scala che presenta sequenze di movimento complesse, riccamente annotate con precisi confini temporali. Costruito attraverso una pipeline di generazione dati accuratamente progettata, CompMo include 60.000 sequenze di movimento, ciascuna composta da azioni multiple che vanno da un minimo di due a un massimo di dieci, annotate accuratamente con le loro estensioni temporali. Presentiamo inoltre DEMO, un modello che integra un large language model con un semplice adattatore per il movimento, addestrato per generare descrizioni dense e temporalmente ancorate. I nostri esperimenti mostrano che DEMO supera sostanzialmente i metodi esistenti sia su CompMo che su benchmark adattati, stabilendo una solida baseline per la ricerca futura nella comprensione e descrizione del movimento 3D.

English

Recent advances in 3D human motion and language integration have primarily focused on text-to-motion generation, leaving the task of motion understanding relatively unexplored. We introduce Dense Motion Captioning, a novel task that aims to temporally localize and caption actions within 3D human motion sequences. Current datasets fall short in providing detailed temporal annotations and predominantly consist of short sequences featuring few actions. To overcome these limitations, we present the Complex Motion Dataset (CompMo), the first large-scale dataset featuring richly annotated, complex motion sequences with precise temporal boundaries. Built through a carefully designed data generation pipeline, CompMo includes 60,000 motion sequences, each composed of multiple actions ranging from at least two to ten, accurately annotated with their temporal extents. We further present DEMO, a model that integrates a large language model with a simple motion adapter, trained to generate dense, temporally grounded captions. Our experiments show that DEMO substantially outperforms existing methods on CompMo as well as on adapted benchmarks, establishing a robust baseline for future research in 3D motion understanding and captioning.