Cockatiel: Integración de Entrenamiento Sintético y con Preferencias Humanas para la Generación de Descripciones Detalladas de Videos
Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption
March 12, 2025
Autores: Luozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li
cs.AI
Resumen
La Generación Detallada de Subtítulos para Videos (VDC, por sus siglas en inglés) es una tarea crucial para el puente entre visión y lenguaje, permitiendo descripciones detalladas de contenido visual complejo. En este artículo, primero realizamos una evaluación exhaustiva de los enfoques más avanzados actuales e identificamos sistemáticamente dos limitaciones críticas: una capacidad sesgada hacia aspectos específicos de la generación de subtítulos y una desalineación con las preferencias humanas. Para abordar estas deficiencias, proponemos Cockatiel, una novedosa canalización de entrenamiento en tres etapas que combina entrenamiento sintético y alineado con humanos para mejorar el rendimiento en VDC. En la primera etapa, derivamos un evaluador a partir de un conjunto de datos meticulosamente anotado para seleccionar subtítulos sintéticos que destacan en la alineación detallada entre video y subtítulo y que son preferidos por humanos, descartando otros. Luego, entrenamos Cockatiel-13B utilizando este conjunto de datos curado para infundirle las fortalezas ensambladas del modelo y las preferencias humanas. Finalmente, destilamos Cockatiel-8B a partir de Cockatiel-13B para facilitar su uso. Experimentos cuantitativos y cualitativos extensos reflejan la efectividad de nuestro método, ya que no solo establecemos un nuevo rendimiento de vanguardia en VDCSCORE de manera equilibrada en dimensiones, sino que también superamos ampliamente a las alternativas líderes en preferencia humana, como lo muestran los resultados de evaluación humana.
English
Video Detailed Captioning (VDC) is a crucial task for vision-language
bridging, enabling fine-grained descriptions of complex video content. In this
paper, we first comprehensively benchmark current state-of-the-art approaches
and systematically identified two critical limitations: biased capability
towards specific captioning aspect and misalignment with human preferences. To
address these deficiencies, we propose Cockatiel, a novel three-stage training
pipeline that ensembles synthetic and human-aligned training for improving VDC
performance. In the first stage, we derive a scorer from a meticulously
annotated dataset to select synthetic captions high-performing on certain
fine-grained video-caption alignment and human-preferred while disregarding
others. Then, we train Cockatiel-13B, using this curated dataset to infuse it
with assembled model strengths and human preferences. Finally, we further
distill Cockatiel-8B from Cockatiel-13B for the ease of usage. Extensive
quantitative and qualitative experiments reflect the effectiveness of our
method, as we not only set new state-of-the-art performance on VDCSCORE in a
dimension-balanced way but also surpass leading alternatives on human
preference by a large margin as depicted by the human evaluation results.Summary
AI-Generated Summary