Cockatiel: Ensemble van synthetische en door mensen geprefereerde training voor gedetailleerde videobeschrijving
Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption
March 12, 2025
Auteurs: Luozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li
cs.AI
Samenvatting
Video Detailed Captioning (VDC) is een cruciale taak voor het overbruggen van visie en taal, waardoor gedetailleerde beschrijvingen van complexe video-inhoud mogelijk worden. In dit artikel evalueren we eerst uitgebreid de huidige state-of-the-art benaderingen en identificeren we systematisch twee kritieke beperkingen: een bevooroordeelde capaciteit ten opzichte van specifieke aspecten van captioning en een verkeerde uitlijning met menselijke voorkeuren. Om deze tekortkomingen aan te pakken, stellen we Cockatiel voor, een nieuwe drietraps trainingspipeline die synthetische en menselijk uitgelijnde training combineert om de VDC-prestaties te verbeteren. In de eerste fase leiden we een scorer af van een nauwkeurig geannoteerde dataset om synthetische bijschriften te selecteren die goed presteren op bepaalde gedetailleerde video-bijschrift uitlijningen en menselijke voorkeuren, terwijl andere worden genegeerd. Vervolgens trainen we Cockatiel-13B met deze gecureerde dataset om het te voorzien van samengestelde modelsterktes en menselijke voorkeuren. Ten slotte destilleren we Cockatiel-8B verder uit Cockatiel-13B voor gebruiksgemak. Uitgebreide kwantitatieve en kwalitatieve experimenten tonen de effectiviteit van onze methode aan, aangezien we niet alleen een nieuwe state-of-the-art prestatie op VDCSCORE behalen op een dimensie-gebalanceerde manier, maar ook toonaangevende alternatieven op het gebied van menselijke voorkeur met een grote marge overtreffen, zoals blijkt uit de resultaten van de menselijke evaluatie.
English
Video Detailed Captioning (VDC) is a crucial task for vision-language
bridging, enabling fine-grained descriptions of complex video content. In this
paper, we first comprehensively benchmark current state-of-the-art approaches
and systematically identified two critical limitations: biased capability
towards specific captioning aspect and misalignment with human preferences. To
address these deficiencies, we propose Cockatiel, a novel three-stage training
pipeline that ensembles synthetic and human-aligned training for improving VDC
performance. In the first stage, we derive a scorer from a meticulously
annotated dataset to select synthetic captions high-performing on certain
fine-grained video-caption alignment and human-preferred while disregarding
others. Then, we train Cockatiel-13B, using this curated dataset to infuse it
with assembled model strengths and human preferences. Finally, we further
distill Cockatiel-8B from Cockatiel-13B for the ease of usage. Extensive
quantitative and qualitative experiments reflect the effectiveness of our
method, as we not only set new state-of-the-art performance on VDCSCORE in a
dimension-balanced way but also surpass leading alternatives on human
preference by a large margin as depicted by the human evaluation results.Summary
AI-Generated Summary