ChatPaper.aiChatPaper

Cockatiel: Integrazione di Addestramento Sintetico e Preferenze Umane per la Generazione di Descrizioni Video Dettagliate

Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption

March 12, 2025
Autori: Luozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li
cs.AI

Abstract

La Didascalia Dettagliata dei Video (VDC) è un compito cruciale per il collegamento tra visione e linguaggio, consentendo descrizioni granulari di contenuti video complessi. In questo articolo, iniziamo con un'analisi completa degli approcci più avanzati attualmente disponibili, identificando sistematicamente due limitazioni critiche: una capacità distorta verso specifici aspetti della didascalia e un disallineamento con le preferenze umane. Per affrontare queste carenze, proponiamo Cockatiel, una nuova pipeline di addestramento in tre fasi che combina addestramento sintetico e allineato alle preferenze umane per migliorare le prestazioni della VDC. Nella prima fase, deriviamo un punteggio da un dataset annotato meticolosamente per selezionare didascalie sintetiche che performano bene su determinati allineamenti video-didascalia granulari e preferiti dagli esseri umani, scartando le altre. Successivamente, addestriamo Cockatiel-13B utilizzando questo dataset curato per infondergli i punti di forza del modello assemblato e le preferenze umane. Infine, distilliamo ulteriormente Cockatiel-8B da Cockatiel-13B per facilitarne l'uso. Esperimenti quantitativi e qualitativi estesi riflettono l'efficacia del nostro metodo, poiché non solo raggiungiamo nuove prestazioni all'avanguardia su VDCSCORE in modo bilanciato rispetto alle dimensioni, ma superiamo anche le alternative leader nelle preferenze umane con un ampio margine, come dimostrato dai risultati delle valutazioni umane.
English
Video Detailed Captioning (VDC) is a crucial task for vision-language bridging, enabling fine-grained descriptions of complex video content. In this paper, we first comprehensively benchmark current state-of-the-art approaches and systematically identified two critical limitations: biased capability towards specific captioning aspect and misalignment with human preferences. To address these deficiencies, we propose Cockatiel, a novel three-stage training pipeline that ensembles synthetic and human-aligned training for improving VDC performance. In the first stage, we derive a scorer from a meticulously annotated dataset to select synthetic captions high-performing on certain fine-grained video-caption alignment and human-preferred while disregarding others. Then, we train Cockatiel-13B, using this curated dataset to infuse it with assembled model strengths and human preferences. Finally, we further distill Cockatiel-8B from Cockatiel-13B for the ease of usage. Extensive quantitative and qualitative experiments reflect the effectiveness of our method, as we not only set new state-of-the-art performance on VDCSCORE in a dimension-balanced way but also surpass leading alternatives on human preference by a large margin as depicted by the human evaluation results.
PDF52March 17, 2025