Video-STaR: L'auto-addestramento abilita la messa a punto delle istruzioni video con qualsiasi tipo di supervisione
Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision
July 8, 2024
Autori: Orr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy
cs.AI
Abstract
Le prestazioni dei Large Vision Language Models (LVLM) dipendono dalla dimensione e dalla qualità dei loro dataset di addestramento. Gli attuali dataset per il tuning delle istruzioni video mancano di diversità, poiché sono generati facendo prompt a grandi modelli linguistici con didascalie video per creare coppie domanda-risposta, risultando quindi prevalentemente descrittivi. Nel frattempo, esistono molti dataset video etichettati con etichette e supervisione diversificate; tuttavia, riscontriamo che la loro integrazione negli LVLM non è banale. Qui presentiamo Video Self-Training with augmented Reasoning (Video-STaR), il primo approccio di auto-addestramento video. Video-STaR consente l'utilizzo di qualsiasi dataset video etichettato per il tuning delle istruzioni video. In Video-STaR, un LVLM alterna tra la generazione di istruzioni e il fine-tuning, dimostrando che (I) migliora la comprensione generale dei video e (II) adatta gli LVLM a nuovi task downstream con la supervisione esistente. Durante la generazione, un LVLM viene sollecitato a proporre una risposta. Le risposte vengono poi filtrate mantenendo solo quelle che contengono le etichette video originali, e il LVLM viene quindi ri-addestrato sul dataset generato. Addestrando solo sulle risposte generate che contengono le corrette etichette video, Video-STaR utilizza queste etichette video esistenti come supervisione debole per il tuning delle istruzioni video. I nostri risultati dimostrano che gli LVLM potenziati da Video-STaR mostrano prestazioni migliorate in (I) QA video generale, dove le prestazioni di TempCompass sono migliorate del 10%, e (II) nei task downstream, dove Video-STaR ha migliorato l'accuratezza di Kinetics700-QA del 20% e la valutazione della qualità delle azioni su FineDiving del 15%.
English
The performance of Large Vision Language Models (LVLMs) is dependent on the
size and quality of their training datasets. Existing video instruction tuning
datasets lack diversity as they are derived by prompting large language models
with video captions to generate question-answer pairs, and are therefore mostly
descriptive. Meanwhile, many labeled video datasets with diverse labels and
supervision exist - however, we find that their integration into LVLMs is
non-trivial. Herein, we present Video Self-Training with augmented Reasoning
(Video-STaR), the first video self-training approach. Video-STaR allows the
utilization of any labeled video dataset for video instruction tuning. In
Video-STaR, an LVLM cycles between instruction generation and finetuning, which
we show (I) improves general video understanding and (II) adapts LVLMs to novel
downstream tasks with existing supervision. During generation, an LVLM is
prompted to propose an answer. The answers are then filtered only to those that
contain the original video labels, and the LVLM is then re-trained on the
generated dataset. By only training on generated answers that contain the
correct video labels, Video-STaR utilizes these existing video labels as weak
supervision for video instruction tuning. Our results demonstrate that
Video-STaR-enhanced LVLMs exhibit improved performance in (I) general video QA,
where TempCompass performance improved by 10%, and (II) on downstream tasks,
where Video-STaR improved Kinetics700-QA accuracy by 20% and action quality
assessment on FineDiving by 15%.