Descripción Densa del Movimiento

Resumen

Los avances recientes en la integración del lenguaje y el movimiento humano 3D se han centrado principalmente en la generación de texto a movimiento, dejando la tarea de comprensión del movimiento relativamente inexplorada. Presentamos Dense Motion Captioning, una nueva tarea que pretende localizar temporalmente y describir acciones dentro de secuencias de movimiento humano 3D. Los conjuntos de datos actuales adolecen de anotaciones temporales detalladas y consisten predominantemente en secuencias cortas con pocas acciones. Para superar estas limitaciones, presentamos el Complex Motion Dataset (CompMo), el primer conjunto de datos a gran escala que presenta secuencias de movimiento complejas, ricamente anotadas, con límites temporales precisos. Construido mediante un pipeline de generación de datos cuidadosamente diseñado, CompMo incluye 60,000 secuencias de movimiento, cada una compuesta por múltiples acciones que van desde al menos dos hasta diez, anotadas con precisión con sus extensiones temporales. Además, presentamos DEMO, un modelo que integra un modelo de lenguaje grande con un adaptador de movimiento simple, entrenado para generar descripciones densas y temporalmente fundamentadas. Nuestros experimentos muestran que DEMO supera sustancialmente a los métodos existentes tanto en CompMo como en benchmarks adaptados, estableciendo una base sólida para futuras investigaciones en comprensión y descripción de movimiento 3D.

English

Recent advances in 3D human motion and language integration have primarily focused on text-to-motion generation, leaving the task of motion understanding relatively unexplored. We introduce Dense Motion Captioning, a novel task that aims to temporally localize and caption actions within 3D human motion sequences. Current datasets fall short in providing detailed temporal annotations and predominantly consist of short sequences featuring few actions. To overcome these limitations, we present the Complex Motion Dataset (CompMo), the first large-scale dataset featuring richly annotated, complex motion sequences with precise temporal boundaries. Built through a carefully designed data generation pipeline, CompMo includes 60,000 motion sequences, each composed of multiple actions ranging from at least two to ten, accurately annotated with their temporal extents. We further present DEMO, a model that integrates a large language model with a simple motion adapter, trained to generate dense, temporally grounded captions. Our experiments show that DEMO substantially outperforms existing methods on CompMo as well as on adapted benchmarks, establishing a robust baseline for future research in 3D motion understanding and captioning.