ChatPaper.aiChatPaper

Cockatiel : Combinaison d'un entraînement synthétique et basé sur les préférences humaines pour la génération de descriptions vidéo détaillées

Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption

March 12, 2025
Auteurs: Luozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li
cs.AI

Résumé

La génération détaillée de légendes vidéo (Video Detailed Captioning, VDC) est une tâche cruciale pour le rapprochement vision-langage, permettant des descriptions fines et précises de contenus vidéo complexes. Dans cet article, nous évaluons d'abord de manière exhaustive les approches actuelles de pointe et identifions systématiquement deux limitations critiques : une capacité biaisée envers certains aspects de la génération de légendes et un désalignement avec les préférences humaines. Pour pallier ces lacunes, nous proposons Cockatiel, un nouveau pipeline d'entraînement en trois étapes qui combine un entraînement synthétique et aligné sur les préférences humaines pour améliorer les performances en VDC. Dans la première étape, nous dérivons un scoreur à partir d'un ensemble de données soigneusement annoté pour sélectionner des légendes synthétiques performantes sur certains aspects d'alignement vidéo-légende fins et préférés par les humains, tout en écartant les autres. Ensuite, nous entraînons Cockatiel-13B en utilisant cet ensemble de données curaté pour l'imprégner des forces combinées des modèles et des préférences humaines. Enfin, nous distillons Cockatiel-8B à partir de Cockatiel-13B pour en faciliter l'utilisation. Des expériences quantitatives et qualitatives approfondies reflètent l'efficacité de notre méthode, car nous établissons non seulement de nouvelles performances de pointe sur VDCSCORE de manière équilibrée, mais surpassons également les alternatives principales en termes de préférence humaine avec une large marge, comme le montrent les résultats de l'évaluation humaine.
English
Video Detailed Captioning (VDC) is a crucial task for vision-language bridging, enabling fine-grained descriptions of complex video content. In this paper, we first comprehensively benchmark current state-of-the-art approaches and systematically identified two critical limitations: biased capability towards specific captioning aspect and misalignment with human preferences. To address these deficiencies, we propose Cockatiel, a novel three-stage training pipeline that ensembles synthetic and human-aligned training for improving VDC performance. In the first stage, we derive a scorer from a meticulously annotated dataset to select synthetic captions high-performing on certain fine-grained video-caption alignment and human-preferred while disregarding others. Then, we train Cockatiel-13B, using this curated dataset to infuse it with assembled model strengths and human preferences. Finally, we further distill Cockatiel-8B from Cockatiel-13B for the ease of usage. Extensive quantitative and qualitative experiments reflect the effectiveness of our method, as we not only set new state-of-the-art performance on VDCSCORE in a dimension-balanced way but also surpass leading alternatives on human preference by a large margin as depicted by the human evaluation results.

Summary

AI-Generated Summary

PDF52March 17, 2025