Cockatiel: Объединение синтетического обучения и обучения с учетом человеческих предпочтений для создания детализированных описаний видео
Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption
March 12, 2025
Авторы: Luozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li
cs.AI
Аннотация
Детальное описание видео (Video Detailed Captioning, VDC) является важной задачей для объединения зрения и языка, позволяя создавать детализированные описания сложного видеоконтента. В данной работе мы сначала провели всесторонний анализ современных передовых подходов и систематически выявили два ключевых ограничения: предвзятость в отношении определенных аспектов описания и несоответствие человеческим предпочтениям. Для устранения этих недостатков мы предлагаем Cockatiel — новый трехэтапный процесс обучения, который объединяет синтетическое и ориентированное на человека обучение для повышения производительности VDC. На первом этапе мы создаем оценщик на основе тщательно аннотированного набора данных, чтобы отбирать синтетические описания, которые демонстрируют высокую эффективность в точном соответствии видео и описания, а также соответствуют человеческим предпочтениям, игнорируя остальные. Затем мы обучаем модель Cockatiel-13B, используя этот отобранный набор данных, чтобы наделить ее объединенными сильными сторонами модели и человеческими предпочтениями. Наконец, мы дополнительно дистиллируем Cockatiel-8B из Cockatiel-13B для упрощения использования. Многочисленные количественные и качественные эксперименты подтверждают эффективность нашего метода: мы не только устанавливаем новый рекорд производительности на метрике VDCSCORE в сбалансированном измерении, но и значительно превосходим ведущие альтернативы по человеческим предпочтениям, что подтверждается результатами оценки людьми.
English
Video Detailed Captioning (VDC) is a crucial task for vision-language
bridging, enabling fine-grained descriptions of complex video content. In this
paper, we first comprehensively benchmark current state-of-the-art approaches
and systematically identified two critical limitations: biased capability
towards specific captioning aspect and misalignment with human preferences. To
address these deficiencies, we propose Cockatiel, a novel three-stage training
pipeline that ensembles synthetic and human-aligned training for improving VDC
performance. In the first stage, we derive a scorer from a meticulously
annotated dataset to select synthetic captions high-performing on certain
fine-grained video-caption alignment and human-preferred while disregarding
others. Then, we train Cockatiel-13B, using this curated dataset to infuse it
with assembled model strengths and human preferences. Finally, we further
distill Cockatiel-8B from Cockatiel-13B for the ease of usage. Extensive
quantitative and qualitative experiments reflect the effectiveness of our
method, as we not only set new state-of-the-art performance on VDCSCORE in a
dimension-balanced way but also surpass leading alternatives on human
preference by a large margin as depicted by the human evaluation results.Summary
AI-Generated Summary