Preentrenamiento a Gran Escala para la Generación de Descripciones de Video con Base en Contexto
Large-scale Pre-training for Grounded Video Caption Generation
March 13, 2025
Autores: Evangelos Kazakos, Cordelia Schmid, Josef Sivic
cs.AI
Resumen
Proponemos un enfoque novedoso para la generación de descripciones y la localización de objetos en videos, donde los objetos mencionados en la descripción se localizan en el video mediante cuadros delimitadores temporalmente densos. Introducimos las siguientes contribuciones. Primero, presentamos un método de anotación automática a gran escala que agrega descripciones asociadas con cuadros delimitadores en fotogramas individuales para generar anotaciones de cuadros delimitadores temporalmente densas y consistentes. Aplicamos este enfoque en el conjunto de datos HowTo100M para construir un conjunto de datos de preentrenamiento a gran escala, denominado HowToGround1M. También presentamos un modelo de Generación de Descripciones de Videos Localizadas, llamado GROVE, y preentrenamos el modelo en HowToGround1M. Segundo, introducimos un nuevo conjunto de datos, llamado iGround, que consta de 3500 videos con descripciones anotadas manualmente y cuadros delimitadores espacial y temporalmente densos. Esto nos permite medir el progreso en este problema desafiante, así como ajustar nuestro modelo en estos datos de pequeña escala pero de alta calidad. Tercero, demostramos que nuestro enfoque alcanza resultados de vanguardia en el conjunto de datos propuesto iGround en comparación con varias líneas base, así como en los conjuntos de datos VidSTG y ActivityNet-Entities. Realizamos amplias ablaciones que demuestran la importancia del preentrenamiento utilizando nuestro conjunto de datos HowToGround1M anotado automáticamente, seguido de un ajuste fino en el conjunto de datos iGround anotado manualmente, y validamos las contribuciones técnicas clave de nuestro modelo.
English
We propose a novel approach for captioning and object grounding in video,
where the objects in the caption are grounded in the video via temporally dense
bounding boxes. We introduce the following contributions. First, we present a
large-scale automatic annotation method that aggregates captions grounded with
bounding boxes across individual frames into temporally dense and consistent
bounding box annotations. We apply this approach on the HowTo100M dataset to
construct a large-scale pre-training dataset, named HowToGround1M. We also
introduce a Grounded Video Caption Generation model, dubbed GROVE, and
pre-train the model on HowToGround1M. Second, we introduce a new dataset,
called iGround, of 3500 videos with manually annotated captions and dense
spatio-temporally grounded bounding boxes. This allows us to measure progress
on this challenging problem, as well as to fine-tune our model on this
small-scale but high-quality data. Third, we demonstrate that our approach
achieves state-of-the-art results on the proposed iGround dataset compared to a
number of baselines, as well as on the VidSTG and ActivityNet-Entities
datasets. We perform extensive ablations that demonstrate the importance of
pre-training using our automatically annotated HowToGround1M dataset followed
by fine-tuning on the manually annotated iGround dataset and validate the key
technical contributions of our model.