ChatPaper.aiChatPaper

Video-STaR: Zelf-training maakt video-instructieafstemming mogelijk met elke vorm van supervisie

Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision

July 8, 2024
Auteurs: Orr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy
cs.AI

Samenvatting

De prestaties van Large Vision Language Models (LVLMs) zijn afhankelijk van de omvang en kwaliteit van hun trainingsdatasets. Bestaande video-instructieafstemmingsdatasets missen diversiteit omdat ze zijn afgeleid door grote taalmodellen te stimuleren met videobijschriften om vraag-antwoordparen te genereren, en zijn daarom meestal beschrijvend. Tegelijkertijd bestaan er veel gelabelde videodatasets met diverse labels en supervisie - echter, we constateren dat hun integratie in LVLMs niet triviaal is. Hier presenteren we Video Self-Training with augmented Reasoning (Video-STaR), de eerste video-zelf-trainingsbenadering. Video-STaR maakt het mogelijk om elke gelabelde videodataset te gebruiken voor video-instructieafstemming. In Video-STaR doorloopt een LVLM een cyclus van instructiegeneratie en finetuning, wat we aantonen (I) het algemene videobegrip verbetert en (II) LVLMs aanpast aan nieuwe downstream-taken met bestaande supervisie. Tijdens de generatie wordt een LVLM gestimuleerd om een antwoord voor te stellen. De antwoorden worden vervolgens gefilterd op alleen die welke de originele videolabels bevatten, en de LVLM wordt vervolgens opnieuw getraind op de gegenereerde dataset. Door alleen te trainen op gegenereerde antwoorden die de juiste videolabels bevatten, maakt Video-STaR gebruik van deze bestaande videolabels als zwakke supervisie voor video-instructieafstemming. Onze resultaten tonen aan dat Video-STaR-verbeterde LVLMs betere prestaties vertonen in (I) algemene video-QA, waar de prestaties van TempCompass met 10% verbeterden, en (II) bij downstream-taken, waar Video-STaR de nauwkeurigheid van Kinetics700-QA met 20% verbeterde en de actiekwaliteitsbeoordeling op FineDiving met 15%.
English
The performance of Large Vision Language Models (LVLMs) is dependent on the size and quality of their training datasets. Existing video instruction tuning datasets lack diversity as they are derived by prompting large language models with video captions to generate question-answer pairs, and are therefore mostly descriptive. Meanwhile, many labeled video datasets with diverse labels and supervision exist - however, we find that their integration into LVLMs is non-trivial. Herein, we present Video Self-Training with augmented Reasoning (Video-STaR), the first video self-training approach. Video-STaR allows the utilization of any labeled video dataset for video instruction tuning. In Video-STaR, an LVLM cycles between instruction generation and finetuning, which we show (I) improves general video understanding and (II) adapts LVLMs to novel downstream tasks with existing supervision. During generation, an LVLM is prompted to propose an answer. The answers are then filtered only to those that contain the original video labels, and the LVLM is then re-trained on the generated dataset. By only training on generated answers that contain the correct video labels, Video-STaR utilizes these existing video labels as weak supervision for video instruction tuning. Our results demonstrate that Video-STaR-enhanced LVLMs exhibit improved performance in (I) general video QA, where TempCompass performance improved by 10%, and (II) on downstream tasks, where Video-STaR improved Kinetics700-QA accuracy by 20% and action quality assessment on FineDiving by 15%.
PDF263November 28, 2024