Video-STaR: Zelf-training maakt video-instructieafstemming mogelijk met elke vorm van supervisie
Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision
July 8, 2024
Auteurs: Orr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy
cs.AI
Samenvatting
De prestaties van Large Vision Language Models (LVLMs) zijn afhankelijk van de omvang en kwaliteit van hun trainingsdatasets. Bestaande video-instructieafstemmingsdatasets missen diversiteit omdat ze zijn afgeleid door grote taalmodellen te stimuleren met videobijschriften om vraag-antwoordparen te genereren, en zijn daarom meestal beschrijvend. Tegelijkertijd bestaan er veel gelabelde videodatasets met diverse labels en supervisie - echter, we constateren dat hun integratie in LVLMs niet triviaal is. Hier presenteren we Video Self-Training with augmented Reasoning (Video-STaR), de eerste video-zelf-trainingsbenadering. Video-STaR maakt het mogelijk om elke gelabelde videodataset te gebruiken voor video-instructieafstemming. In Video-STaR doorloopt een LVLM een cyclus van instructiegeneratie en finetuning, wat we aantonen (I) het algemene videobegrip verbetert en (II) LVLMs aanpast aan nieuwe downstream-taken met bestaande supervisie. Tijdens de generatie wordt een LVLM gestimuleerd om een antwoord voor te stellen. De antwoorden worden vervolgens gefilterd op alleen die welke de originele videolabels bevatten, en de LVLM wordt vervolgens opnieuw getraind op de gegenereerde dataset. Door alleen te trainen op gegenereerde antwoorden die de juiste videolabels bevatten, maakt Video-STaR gebruik van deze bestaande videolabels als zwakke supervisie voor video-instructieafstemming. Onze resultaten tonen aan dat Video-STaR-verbeterde LVLMs betere prestaties vertonen in (I) algemene video-QA, waar de prestaties van TempCompass met 10% verbeterden, en (II) bij downstream-taken, waar Video-STaR de nauwkeurigheid van Kinetics700-QA met 20% verbeterde en de actiekwaliteitsbeoordeling op FineDiving met 15%.
English
The performance of Large Vision Language Models (LVLMs) is dependent on the
size and quality of their training datasets. Existing video instruction tuning
datasets lack diversity as they are derived by prompting large language models
with video captions to generate question-answer pairs, and are therefore mostly
descriptive. Meanwhile, many labeled video datasets with diverse labels and
supervision exist - however, we find that their integration into LVLMs is
non-trivial. Herein, we present Video Self-Training with augmented Reasoning
(Video-STaR), the first video self-training approach. Video-STaR allows the
utilization of any labeled video dataset for video instruction tuning. In
Video-STaR, an LVLM cycles between instruction generation and finetuning, which
we show (I) improves general video understanding and (II) adapts LVLMs to novel
downstream tasks with existing supervision. During generation, an LVLM is
prompted to propose an answer. The answers are then filtered only to those that
contain the original video labels, and the LVLM is then re-trained on the
generated dataset. By only training on generated answers that contain the
correct video labels, Video-STaR utilizes these existing video labels as weak
supervision for video instruction tuning. Our results demonstrate that
Video-STaR-enhanced LVLMs exhibit improved performance in (I) general video QA,
where TempCompass performance improved by 10%, and (II) on downstream tasks,
where Video-STaR improved Kinetics700-QA accuracy by 20% and action quality
assessment on FineDiving by 15%.