Видео-STaR: самообучение позволяет настраивать видеоинструкции с любым уровнем наблюдения
Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision
July 8, 2024
Авторы: Orr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy
cs.AI
Аннотация
Производительность крупных моделей языка и зрения (LVLM) зависит от размера и качества обучающих наборов данных. Существующие наборы данных для настройки видеоинструкций имеют ограниченную разнообразие, так как они созданы путем подачи больших языковых моделей видеоподписей для генерации вопросно-ответных пар и, следовательно, в основном описательны. Тем временем существует множество размеченных видеонаборов данных с разнообразными метками и надзором, однако мы обнаружили, что их интеграция в LVLM является нетривиальной. В данной работе мы представляем Video Self-Training с увеличенным рассуждением (Video-STaR), первый подход к самообучению на видео. Video-STaR позволяет использовать любой размеченный видеонабор данных для настройки видеоинструкций. В Video-STaR LVLM переключается между генерацией инструкций и донастройкой, что, как мы показываем, (I) улучшает общее понимание видео и (II) адаптирует LVLM для новых последующих задач с существующим надзором. Во время генерации LVLM подталкивается предложить ответ. Затем ответы фильтруются только те, которые содержат исходные видеометки, и затем LVLM переобучается на сгенерированном наборе данных. Обучаясь только на сгенерированных ответах, содержащих правильные видеометки, Video-STaR использует эти существующие видеометки в качестве слабого надзора для настройки видеоинструкций. Наши результаты демонстрируют, что улучшенные с помощью Video-STaR LVLM проявляют улучшенную производительность в (I) общем видео QA, где производительность TempCompass улучшилась на 10%, и (II) на последующих задачах, где Video-STaR улучшил точность Kinetics700-QA на 20% и оценку качества действий на FineDiving на 15%.
English
The performance of Large Vision Language Models (LVLMs) is dependent on the
size and quality of their training datasets. Existing video instruction tuning
datasets lack diversity as they are derived by prompting large language models
with video captions to generate question-answer pairs, and are therefore mostly
descriptive. Meanwhile, many labeled video datasets with diverse labels and
supervision exist - however, we find that their integration into LVLMs is
non-trivial. Herein, we present Video Self-Training with augmented Reasoning
(Video-STaR), the first video self-training approach. Video-STaR allows the
utilization of any labeled video dataset for video instruction tuning. In
Video-STaR, an LVLM cycles between instruction generation and finetuning, which
we show (I) improves general video understanding and (II) adapts LVLMs to novel
downstream tasks with existing supervision. During generation, an LVLM is
prompted to propose an answer. The answers are then filtered only to those that
contain the original video labels, and the LVLM is then re-trained on the
generated dataset. By only training on generated answers that contain the
correct video labels, Video-STaR utilizes these existing video labels as weak
supervision for video instruction tuning. Our results demonstrate that
Video-STaR-enhanced LVLMs exhibit improved performance in (I) general video QA,
where TempCompass performance improved by 10%, and (II) on downstream tasks,
where Video-STaR improved Kinetics700-QA accuracy by 20% and action quality
assessment on FineDiving by 15%.Summary
AI-Generated Summary