Video-STaR: El Autoentrenamiento Permite Ajustar la Instrucción de Video con Cualquier Supervisión

Resumen

El rendimiento de los Modelos de Lenguaje de Visión Amplia (LVLMs) depende del tamaño y la calidad de sus conjuntos de datos de entrenamiento. Los conjuntos de datos de ajuste de instrucciones de video existentes carecen de diversidad, ya que se derivan al incitar a los grandes modelos de lenguaje con subtítulos de video para generar pares de preguntas y respuestas, siendo en su mayoría descriptivos. Mientras tanto, existen muchos conjuntos de datos de video etiquetados con etiquetas y supervisión diversas; sin embargo, encontramos que su integración en LVLMs es no trivial. En este documento, presentamos Video Self-Training con Razonamiento aumentado (Video-STaR), el primer enfoque de autoentrenamiento de video. Video-STaR permite la utilización de cualquier conjunto de datos de video etiquetado para el ajuste de instrucciones de video. En Video-STaR, un LVLM alterna entre la generación de instrucciones y el ajuste fino, lo cual demostramos (I) mejora la comprensión general de video y (II) adapta los LVLMs a tareas novedosas con supervisión existente. Durante la generación, se le solicita a un LVLM que proponga una respuesta. Luego, las respuestas se filtran solo a aquellas que contienen las etiquetas originales del video, y luego el LVLM se vuelve a entrenar en el conjunto de datos generado. Al entrenar solo con respuestas generadas que contienen las etiquetas de video correctas, Video-STaR utiliza estas etiquetas de video existentes como supervisión débil para el ajuste de instrucciones de video. Nuestros resultados demuestran que los LVLMs mejorados con Video-STaR muestran un rendimiento mejorado en (I) preguntas y respuestas de video generales, donde el rendimiento de TempCompass mejoró en un 10%, y (II) en tareas posteriores, donde Video-STaR mejoró la precisión de Kinetics700-QA en un 20% y la evaluación de calidad de acción en FineDiving en un 15%.

English

The performance of Large Vision Language Models (LVLMs) is dependent on the size and quality of their training datasets. Existing video instruction tuning datasets lack diversity as they are derived by prompting large language models with video captions to generate question-answer pairs, and are therefore mostly descriptive. Meanwhile, many labeled video datasets with diverse labels and supervision exist - however, we find that their integration into LVLMs is non-trivial. Herein, we present Video Self-Training with augmented Reasoning (Video-STaR), the first video self-training approach. Video-STaR allows the utilization of any labeled video dataset for video instruction tuning. In Video-STaR, an LVLM cycles between instruction generation and finetuning, which we show (I) improves general video understanding and (II) adapts LVLMs to novel downstream tasks with existing supervision. During generation, an LVLM is prompted to propose an answer. The answers are then filtered only to those that contain the original video labels, and the LVLM is then re-trained on the generated dataset. By only training on generated answers that contain the correct video labels, Video-STaR utilizes these existing video labels as weak supervision for video instruction tuning. Our results demonstrate that Video-STaR-enhanced LVLMs exhibit improved performance in (I) general video QA, where TempCompass performance improved by 10%, and (II) on downstream tasks, where Video-STaR improved Kinetics700-QA accuracy by 20% and action quality assessment on FineDiving by 15%.

Video-STaR: El Autoentrenamiento Permite Ajustar la Instrucción de Video con Cualquier Supervisión

Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision

Resumen

Support