Video-STaR: Autoaprendizagem Permite Ajuste de Instruções em Vídeo com Qualquer Supervisão
Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision
July 8, 2024
Autores: Orr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy
cs.AI
Resumo
O desempenho dos Modelos de Linguagem de Visão Ampliada (LVLMs) depende do tamanho e qualidade de seus conjuntos de dados de treinamento. Os conjuntos de dados de ajuste de instruções de vídeo existentes carecem de diversidade, pois são derivados ao solicitar que grandes modelos de linguagem gerem pares de perguntas e respostas a partir de legendas de vídeo, sendo, portanto, em sua maioria descritivos. Enquanto isso, muitos conjuntos de dados de vídeo rotulados com rótulos e supervisão diversos existem - no entanto, constatamos que sua integração aos LVLMs é complexa. Aqui, apresentamos o Video Self-Training with augmented Reasoning (Video-STaR), a primeira abordagem de auto-treinamento de vídeo. O Video-STaR permite a utilização de qualquer conjunto de dados de vídeo rotulado para ajuste de instruções de vídeo. No Video-STaR, um LVLM alterna entre geração de instruções e ajuste fino, o que demonstramos (I) melhora a compreensão geral de vídeo e (II) adapta os LVLMs a novas tarefas com supervisão existente. Durante a geração, um LVLM é solicitado a propor uma resposta. As respostas são então filtradas apenas para aquelas que contêm os rótulos originais do vídeo, e o LVLM é então re-treinado no conjunto de dados gerado. Ao treinar apenas nas respostas geradas que contêm os rótulos corretos do vídeo, o Video-STaR utiliza esses rótulos de vídeo existentes como supervisão fraca para o ajuste de instruções de vídeo. Nossos resultados demonstram que os LVLMs aprimorados pelo Video-STaR apresentam desempenho melhorado em (I) QA de vídeo geral, onde o desempenho do TempCompass melhorou em 10%, e (II) em tarefas subsequentes, onde o Video-STaR melhorou a precisão do Kinetics700-QA em 20% e a avaliação de qualidade de ação no FineDiving em 15%.
English
The performance of Large Vision Language Models (LVLMs) is dependent on the
size and quality of their training datasets. Existing video instruction tuning
datasets lack diversity as they are derived by prompting large language models
with video captions to generate question-answer pairs, and are therefore mostly
descriptive. Meanwhile, many labeled video datasets with diverse labels and
supervision exist - however, we find that their integration into LVLMs is
non-trivial. Herein, we present Video Self-Training with augmented Reasoning
(Video-STaR), the first video self-training approach. Video-STaR allows the
utilization of any labeled video dataset for video instruction tuning. In
Video-STaR, an LVLM cycles between instruction generation and finetuning, which
we show (I) improves general video understanding and (II) adapts LVLMs to novel
downstream tasks with existing supervision. During generation, an LVLM is
prompted to propose an answer. The answers are then filtered only to those that
contain the original video labels, and the LVLM is then re-trained on the
generated dataset. By only training on generated answers that contain the
correct video labels, Video-STaR utilizes these existing video labels as weak
supervision for video instruction tuning. Our results demonstrate that
Video-STaR-enhanced LVLMs exhibit improved performance in (I) general video QA,
where TempCompass performance improved by 10%, and (II) on downstream tasks,
where Video-STaR improved Kinetics700-QA accuracy by 20% and action quality
assessment on FineDiving by 15%.