Video-STaR : L'auto-apprentissage permet l'ajustement par instruction vidéo avec toute forme de supervision
Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision
July 8, 2024
Auteurs: Orr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy
cs.AI
Résumé
La performance des grands modèles de vision et langage (LVLMs) dépend de la taille et de la qualité de leurs ensembles de données d'entraînement. Les ensembles de données existants pour le réglage par instructions vidéo manquent de diversité, car ils sont générés en incitant des modèles de langage volumineux avec des légendes vidéo pour produire des paires question-réponse, et sont donc principalement descriptifs. Par ailleurs, de nombreux ensembles de données vidéo annotés avec des étiquettes et des supervisions variées existent - cependant, nous constatons que leur intégration dans les LVLMs n'est pas triviale. Nous présentons ici Video Self-Training with augmented Reasoning (Video-STaR), la première approche d'auto-apprentissage pour la vidéo. Video-STaR permet l'utilisation de tout ensemble de données vidéo annoté pour le réglage par instructions vidéo. Dans Video-STaR, un LVLM alterne entre la génération d'instructions et le réglage fin, ce qui, comme nous le montrons, (I) améliore la compréhension générale des vidéos et (II) adapte les LVLMs à de nouvelles tâches en aval avec la supervision existante. Pendant la génération, un LVLM est incité à proposer une réponse. Les réponses sont ensuite filtrées pour ne conserver que celles qui contiennent les étiquettes vidéo originales, et le LVLM est ensuite ré-entraîné sur l'ensemble de données généré. En n'entraînant que sur les réponses générées qui contiennent les étiquettes vidéo correctes, Video-STaR utilise ces étiquettes vidéo existantes comme une supervision faible pour le réglage par instructions vidéo. Nos résultats démontrent que les LVLMs améliorés par Video-STaR présentent une performance accrue dans (I) les questions-réponses générales sur les vidéos, où la performance de TempCompass s'est améliorée de 10%, et (II) sur les tâches en aval, où Video-STaR a amélioré la précision de Kinetics700-QA de 20% et l'évaluation de la qualité des actions sur FineDiving de 15%.
English
The performance of Large Vision Language Models (LVLMs) is dependent on the
size and quality of their training datasets. Existing video instruction tuning
datasets lack diversity as they are derived by prompting large language models
with video captions to generate question-answer pairs, and are therefore mostly
descriptive. Meanwhile, many labeled video datasets with diverse labels and
supervision exist - however, we find that their integration into LVLMs is
non-trivial. Herein, we present Video Self-Training with augmented Reasoning
(Video-STaR), the first video self-training approach. Video-STaR allows the
utilization of any labeled video dataset for video instruction tuning. In
Video-STaR, an LVLM cycles between instruction generation and finetuning, which
we show (I) improves general video understanding and (II) adapts LVLMs to novel
downstream tasks with existing supervision. During generation, an LVLM is
prompted to propose an answer. The answers are then filtered only to those that
contain the original video labels, and the LVLM is then re-trained on the
generated dataset. By only training on generated answers that contain the
correct video labels, Video-STaR utilizes these existing video labels as weak
supervision for video instruction tuning. Our results demonstrate that
Video-STaR-enhanced LVLMs exhibit improved performance in (I) general video QA,
where TempCompass performance improved by 10%, and (II) on downstream tasks,
where Video-STaR improved Kinetics700-QA accuracy by 20% and action quality
assessment on FineDiving by 15%.Summary
AI-Generated Summary