Cockatiel: Integração de Treinamento Sintético e com Preferências Humanas para Geração de Legendas Detalhadas em Vídeos
Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption
March 12, 2025
Autores: Luozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li
cs.AI
Resumo
A Legenda Detalhada de Vídeos (VDC) é uma tarefa crucial para a ponte entre visão e linguagem, permitindo descrições refinadas de conteúdos de vídeo complexos. Neste artigo, primeiro realizamos uma avaliação abrangente das abordagens mais avançadas atualmente e identificamos sistematicamente duas limitações críticas: a capacidade tendenciosa em relação a aspectos específicos de legendagem e o desalinhamento com as preferências humanas. Para abordar essas deficiências, propomos o Cockatiel, um novo pipeline de treinamento em três estágios que combina treinamento sintético e alinhado com humanos para melhorar o desempenho do VDC. No primeiro estágio, derivamos um avaliador a partir de um conjunto de dados meticulosamente anotado para selecionar legendas sintéticas que apresentam alto desempenho em certos alinhamentos refinados entre vídeo e legenda e que são preferidas por humanos, descartando as demais. Em seguida, treinamos o Cockatiel-13B usando esse conjunto de dados curado para infundir nele as forças combinadas do modelo e as preferências humanas. Por fim, destilamos ainda mais o Cockatiel-8B a partir do Cockatiel-13B para facilitar o uso. Experimentos quantitativos e qualitativos extensivos refletem a eficácia do nosso método, já que não apenas estabelecemos um novo desempenho de ponta no VDCSCORE de forma equilibrada em dimensões, mas também superamos as principais alternativas em preferência humana por uma grande margem, conforme ilustrado pelos resultados da avaliação humana.
English
Video Detailed Captioning (VDC) is a crucial task for vision-language
bridging, enabling fine-grained descriptions of complex video content. In this
paper, we first comprehensively benchmark current state-of-the-art approaches
and systematically identified two critical limitations: biased capability
towards specific captioning aspect and misalignment with human preferences. To
address these deficiencies, we propose Cockatiel, a novel three-stage training
pipeline that ensembles synthetic and human-aligned training for improving VDC
performance. In the first stage, we derive a scorer from a meticulously
annotated dataset to select synthetic captions high-performing on certain
fine-grained video-caption alignment and human-preferred while disregarding
others. Then, we train Cockatiel-13B, using this curated dataset to infuse it
with assembled model strengths and human preferences. Finally, we further
distill Cockatiel-8B from Cockatiel-13B for the ease of usage. Extensive
quantitative and qualitative experiments reflect the effectiveness of our
method, as we not only set new state-of-the-art performance on VDCSCORE in a
dimension-balanced way but also surpass leading alternatives on human
preference by a large margin as depicted by the human evaluation results.Summary
AI-Generated Summary