Descripción Densa del Movimiento
Dense Motion Captioning
November 7, 2025
Autores: Shiyao Xu, Benedetta Liberatori, Gül Varol, Paolo Rota
cs.AI
Resumen
Los avances recientes en la integración del lenguaje y el movimiento humano 3D se han centrado principalmente en la generación de texto a movimiento, dejando la tarea de comprensión del movimiento relativamente inexplorada. Presentamos Dense Motion Captioning, una nueva tarea que pretende localizar temporalmente y describir acciones dentro de secuencias de movimiento humano 3D. Los conjuntos de datos actuales adolecen de anotaciones temporales detalladas y consisten predominantemente en secuencias cortas con pocas acciones. Para superar estas limitaciones, presentamos el Complex Motion Dataset (CompMo), el primer conjunto de datos a gran escala que presenta secuencias de movimiento complejas, ricamente anotadas, con límites temporales precisos. Construido mediante un pipeline de generación de datos cuidadosamente diseñado, CompMo incluye 60,000 secuencias de movimiento, cada una compuesta por múltiples acciones que van desde al menos dos hasta diez, anotadas con precisión con sus extensiones temporales. Además, presentamos DEMO, un modelo que integra un modelo de lenguaje grande con un adaptador de movimiento simple, entrenado para generar descripciones densas y temporalmente fundamentadas. Nuestros experimentos muestran que DEMO supera sustancialmente a los métodos existentes tanto en CompMo como en benchmarks adaptados, estableciendo una base sólida para futuras investigaciones en comprensión y descripción de movimiento 3D.
English
Recent advances in 3D human motion and language integration have primarily
focused on text-to-motion generation, leaving the task of motion understanding
relatively unexplored. We introduce Dense Motion Captioning, a novel task that
aims to temporally localize and caption actions within 3D human motion
sequences. Current datasets fall short in providing detailed temporal
annotations and predominantly consist of short sequences featuring few actions.
To overcome these limitations, we present the Complex Motion Dataset (CompMo),
the first large-scale dataset featuring richly annotated, complex motion
sequences with precise temporal boundaries. Built through a carefully designed
data generation pipeline, CompMo includes 60,000 motion sequences, each
composed of multiple actions ranging from at least two to ten, accurately
annotated with their temporal extents. We further present DEMO, a model that
integrates a large language model with a simple motion adapter, trained to
generate dense, temporally grounded captions. Our experiments show that DEMO
substantially outperforms existing methods on CompMo as well as on adapted
benchmarks, establishing a robust baseline for future research in 3D motion
understanding and captioning.