ChatPaper.aiChatPaper

Video-STaR: Selbsttraining ermöglicht die Feinabstimmung von Videoanweisungen mit jeder Art von Aufsicht.

Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision

July 8, 2024
Autoren: Orr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy
cs.AI

Zusammenfassung

Die Leistung von Large Vision Language Models (LVLMs) hängt von der Größe und Qualität ihrer Trainingsdatensätze ab. Bestehende Videounterweisungsabstimmungsdatensätze weisen aufgrund der Ableitung durch Aufforderung großer Sprachmodelle mit Videobeschriftungen zur Generierung von Frage-Antwort-Paaren oft einen Mangel an Vielfalt auf und sind daher hauptsächlich deskriptiv. In der Zwischenzeit existieren viele gekennzeichnete Videodatensätze mit vielfältigen Labels und Überwachung - jedoch stellen wir fest, dass ihre Integration in LVLMs nicht trivial ist. Hier präsentieren wir Video Self-Training mit augmentiertem Reasoning (Video-STaR), den ersten Ansatz zum Video-Selbsttraining. Video-STaR ermöglicht die Nutzung eines beliebigen gekennzeichneten Videodatensatzes zur Abstimmung von Videoanweisungen. In Video-STaR wechselt ein LVLM zwischen Anweisungsgenerierung und Feinabstimmung, was (I) die allgemeine Videoverarbeitung verbessert und (II) LVLMs an neue nachgelagerte Aufgaben mit vorhandener Überwachung anpasst. Während der Generierung wird ein LVLM aufgefordert, eine Antwort vorzuschlagen. Die Antworten werden dann nur auf diejenigen gefiltert, die die ursprünglichen Videolabels enthalten, und das LVLM wird anschließend auf dem generierten Datensatz neu trainiert. Indem nur auf generierten Antworten trainiert wird, die die korrekten Videolabels enthalten, nutzt Video-STaR diese vorhandenen Videolabels als schwache Überwachung für die Abstimmung von Videoanweisungen. Unsere Ergebnisse zeigen, dass Video-STaR-verbesserte LVLMs eine verbesserte Leistung in (I) allgemeiner Video-F&A aufweisen, wobei die TempCompass-Leistung um 10% verbessert wurde, und (II) bei nachgelagerten Aufgaben, wobei Video-STaR die Kinetics700-QA-Genauigkeit um 20% und die Aktionsqualitätsbewertung bei FineDiving um 15% verbesserte.
English
The performance of Large Vision Language Models (LVLMs) is dependent on the size and quality of their training datasets. Existing video instruction tuning datasets lack diversity as they are derived by prompting large language models with video captions to generate question-answer pairs, and are therefore mostly descriptive. Meanwhile, many labeled video datasets with diverse labels and supervision exist - however, we find that their integration into LVLMs is non-trivial. Herein, we present Video Self-Training with augmented Reasoning (Video-STaR), the first video self-training approach. Video-STaR allows the utilization of any labeled video dataset for video instruction tuning. In Video-STaR, an LVLM cycles between instruction generation and finetuning, which we show (I) improves general video understanding and (II) adapts LVLMs to novel downstream tasks with existing supervision. During generation, an LVLM is prompted to propose an answer. The answers are then filtered only to those that contain the original video labels, and the LVLM is then re-trained on the generated dataset. By only training on generated answers that contain the correct video labels, Video-STaR utilizes these existing video labels as weak supervision for video instruction tuning. Our results demonstrate that Video-STaR-enhanced LVLMs exhibit improved performance in (I) general video QA, where TempCompass performance improved by 10%, and (II) on downstream tasks, where Video-STaR improved Kinetics700-QA accuracy by 20% and action quality assessment on FineDiving by 15%.

Summary

AI-Generated Summary

PDF273November 28, 2024