Cockatiel: Объединение синтетического обучения и обучения с учетом человеческих предпочтений для создания детализированных описаний видео

Аннотация

Детальное описание видео (Video Detailed Captioning, VDC) является важной задачей для объединения зрения и языка, позволяя создавать детализированные описания сложного видеоконтента. В данной работе мы сначала провели всесторонний анализ современных передовых подходов и систематически выявили два ключевых ограничения: предвзятость в отношении определенных аспектов описания и несоответствие человеческим предпочтениям. Для устранения этих недостатков мы предлагаем Cockatiel — новый трехэтапный процесс обучения, который объединяет синтетическое и ориентированное на человека обучение для повышения производительности VDC. На первом этапе мы создаем оценщик на основе тщательно аннотированного набора данных, чтобы отбирать синтетические описания, которые демонстрируют высокую эффективность в точном соответствии видео и описания, а также соответствуют человеческим предпочтениям, игнорируя остальные. Затем мы обучаем модель Cockatiel-13B, используя этот отобранный набор данных, чтобы наделить ее объединенными сильными сторонами модели и человеческими предпочтениями. Наконец, мы дополнительно дистиллируем Cockatiel-8B из Cockatiel-13B для упрощения использования. Многочисленные количественные и качественные эксперименты подтверждают эффективность нашего метода: мы не только устанавливаем новый рекорд производительности на метрике VDCSCORE в сбалансированном измерении, но и значительно превосходим ведущие альтернативы по человеческим предпочтениям, что подтверждается результатами оценки людьми.

English

Video Detailed Captioning (VDC) is a crucial task for vision-language bridging, enabling fine-grained descriptions of complex video content. In this paper, we first comprehensively benchmark current state-of-the-art approaches and systematically identified two critical limitations: biased capability towards specific captioning aspect and misalignment with human preferences. To address these deficiencies, we propose Cockatiel, a novel three-stage training pipeline that ensembles synthetic and human-aligned training for improving VDC performance. In the first stage, we derive a scorer from a meticulously annotated dataset to select synthetic captions high-performing on certain fine-grained video-caption alignment and human-preferred while disregarding others. Then, we train Cockatiel-13B, using this curated dataset to infuse it with assembled model strengths and human preferences. Finally, we further distill Cockatiel-8B from Cockatiel-13B for the ease of usage. Extensive quantitative and qualitative experiments reflect the effectiveness of our method, as we not only set new state-of-the-art performance on VDCSCORE in a dimension-balanced way but also surpass leading alternatives on human preference by a large margin as depicted by the human evaluation results.

Cockatiel: Объединение синтетического обучения и обучения с учетом человеческих предпочтений для создания детализированных описаний видео

Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption

Аннотация

Support