Видео-STaR: самообучение позволяет настраивать видеоинструкции с любым уровнем наблюдения

Аннотация

Производительность крупных моделей языка и зрения (LVLM) зависит от размера и качества обучающих наборов данных. Существующие наборы данных для настройки видеоинструкций имеют ограниченную разнообразие, так как они созданы путем подачи больших языковых моделей видеоподписей для генерации вопросно-ответных пар и, следовательно, в основном описательны. Тем временем существует множество размеченных видеонаборов данных с разнообразными метками и надзором, однако мы обнаружили, что их интеграция в LVLM является нетривиальной. В данной работе мы представляем Video Self-Training с увеличенным рассуждением (Video-STaR), первый подход к самообучению на видео. Video-STaR позволяет использовать любой размеченный видеонабор данных для настройки видеоинструкций. В Video-STaR LVLM переключается между генерацией инструкций и донастройкой, что, как мы показываем, (I) улучшает общее понимание видео и (II) адаптирует LVLM для новых последующих задач с существующим надзором. Во время генерации LVLM подталкивается предложить ответ. Затем ответы фильтруются только те, которые содержат исходные видеометки, и затем LVLM переобучается на сгенерированном наборе данных. Обучаясь только на сгенерированных ответах, содержащих правильные видеометки, Video-STaR использует эти существующие видеометки в качестве слабого надзора для настройки видеоинструкций. Наши результаты демонстрируют, что улучшенные с помощью Video-STaR LVLM проявляют улучшенную производительность в (I) общем видео QA, где производительность TempCompass улучшилась на 10%, и (II) на последующих задачах, где Video-STaR улучшил точность Kinetics700-QA на 20% и оценку качества действий на FineDiving на 15%.

English

The performance of Large Vision Language Models (LVLMs) is dependent on the size and quality of their training datasets. Existing video instruction tuning datasets lack diversity as they are derived by prompting large language models with video captions to generate question-answer pairs, and are therefore mostly descriptive. Meanwhile, many labeled video datasets with diverse labels and supervision exist - however, we find that their integration into LVLMs is non-trivial. Herein, we present Video Self-Training with augmented Reasoning (Video-STaR), the first video self-training approach. Video-STaR allows the utilization of any labeled video dataset for video instruction tuning. In Video-STaR, an LVLM cycles between instruction generation and finetuning, which we show (I) improves general video understanding and (II) adapts LVLMs to novel downstream tasks with existing supervision. During generation, an LVLM is prompted to propose an answer. The answers are then filtered only to those that contain the original video labels, and the LVLM is then re-trained on the generated dataset. By only training on generated answers that contain the correct video labels, Video-STaR utilizes these existing video labels as weak supervision for video instruction tuning. Our results demonstrate that Video-STaR-enhanced LVLMs exhibit improved performance in (I) general video QA, where TempCompass performance improved by 10%, and (II) on downstream tasks, where Video-STaR improved Kinetics700-QA accuracy by 20% and action quality assessment on FineDiving by 15%.

Видео-STaR: самообучение позволяет настраивать видеоинструкции с любым уровнем наблюдения

Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision

Аннотация

Support