Video-STaR: El Autoentrenamiento Permite Ajustar la Instrucción de Video con Cualquier Supervisión
Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision
July 8, 2024
Autores: Orr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy
cs.AI
Resumen
El rendimiento de los Modelos de Lenguaje de Visión Amplia (LVLMs) depende del tamaño y la calidad de sus conjuntos de datos de entrenamiento. Los conjuntos de datos de ajuste de instrucciones de video existentes carecen de diversidad, ya que se derivan al incitar a los grandes modelos de lenguaje con subtítulos de video para generar pares de preguntas y respuestas, siendo en su mayoría descriptivos. Mientras tanto, existen muchos conjuntos de datos de video etiquetados con etiquetas y supervisión diversas; sin embargo, encontramos que su integración en LVLMs es no trivial. En este documento, presentamos Video Self-Training con Razonamiento aumentado (Video-STaR), el primer enfoque de autoentrenamiento de video. Video-STaR permite la utilización de cualquier conjunto de datos de video etiquetado para el ajuste de instrucciones de video. En Video-STaR, un LVLM alterna entre la generación de instrucciones y el ajuste fino, lo cual demostramos (I) mejora la comprensión general de video y (II) adapta los LVLMs a tareas novedosas con supervisión existente. Durante la generación, se le solicita a un LVLM que proponga una respuesta. Luego, las respuestas se filtran solo a aquellas que contienen las etiquetas originales del video, y luego el LVLM se vuelve a entrenar en el conjunto de datos generado. Al entrenar solo con respuestas generadas que contienen las etiquetas de video correctas, Video-STaR utiliza estas etiquetas de video existentes como supervisión débil para el ajuste de instrucciones de video. Nuestros resultados demuestran que los LVLMs mejorados con Video-STaR muestran un rendimiento mejorado en (I) preguntas y respuestas de video generales, donde el rendimiento de TempCompass mejoró en un 10%, y (II) en tareas posteriores, donde Video-STaR mejoró la precisión de Kinetics700-QA en un 20% y la evaluación de calidad de acción en FineDiving en un 15%.
English
The performance of Large Vision Language Models (LVLMs) is dependent on the
size and quality of their training datasets. Existing video instruction tuning
datasets lack diversity as they are derived by prompting large language models
with video captions to generate question-answer pairs, and are therefore mostly
descriptive. Meanwhile, many labeled video datasets with diverse labels and
supervision exist - however, we find that their integration into LVLMs is
non-trivial. Herein, we present Video Self-Training with augmented Reasoning
(Video-STaR), the first video self-training approach. Video-STaR allows the
utilization of any labeled video dataset for video instruction tuning. In
Video-STaR, an LVLM cycles between instruction generation and finetuning, which
we show (I) improves general video understanding and (II) adapts LVLMs to novel
downstream tasks with existing supervision. During generation, an LVLM is
prompted to propose an answer. The answers are then filtered only to those that
contain the original video labels, and the LVLM is then re-trained on the
generated dataset. By only training on generated answers that contain the
correct video labels, Video-STaR utilizes these existing video labels as weak
supervision for video instruction tuning. Our results demonstrate that
Video-STaR-enhanced LVLMs exhibit improved performance in (I) general video QA,
where TempCompass performance improved by 10%, and (II) on downstream tasks,
where Video-STaR improved Kinetics700-QA accuracy by 20% and action quality
assessment on FineDiving by 15%.Summary
AI-Generated Summary