Video-STaR: 모든 감독 하에서 비디오 명령어 튜닝을 가능하게 하는 자기 학습
Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision
July 8, 2024
저자: Orr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy
cs.AI
초록
대규모 비전 언어 모델(LVLM)의 성능은 학습 데이터셋의 규모와 품질에 따라 결정됩니다. 기존의 비디오 명령어 튜닝 데이터셋은 다양성이 부족한데, 이는 비디오 캡션을 기반으로 대규모 언어 모델에 질문-답변 쌍을 생성하도록 프롬프트를 주는 방식으로 만들어졌기 때문에 대부분 설명적인 성격을 띱니다. 한편, 다양한 라벨과 감독 정보를 포함한 많은 라벨링된 비디오 데이터셋이 존재하지만, 이를 LVLM에 통합하는 것은 간단하지 않습니다. 이에 우리는 첫 번째 비디오 자기 학습 접근법인 Video Self-Training with augmented Reasoning(Video-STaR)을 제안합니다. Video-STaR은 모든 라벨링된 비디오 데이터셋을 비디오 명령어 튜닝에 활용할 수 있도록 합니다. Video-STaR에서 LVLM은 명령어 생성과 미세 조정 사이를 순환하며, 이는 (I) 일반적인 비디오 이해 능력을 향상시키고 (II) 기존 감독 정보를 통해 LVLM을 새로운 다운스트림 작업에 적응시킵니다. 생성 단계에서 LVLM은 답변을 제안하도록 프롬프트됩니다. 그런 다음 원래 비디오 라벨을 포함하는 답변만 필터링되고, 생성된 데이터셋으로 LVLM을 재학습합니다. 올바른 비디오 라벨을 포함하는 생성된 답변만을 학습함으로써, Video-STaR은 이러한 기존 비디오 라벨을 비디오 명령어 튜닝을 위한 약한 감독 정보로 활용합니다. 우리의 실험 결과는 Video-STaR이 강화된 LVLM이 (I) 일반적인 비디오 질의응답에서 TempCompass 성능이 10% 향상되고, (II) 다운스트림 작업에서 Kinetics700-QA 정확도가 20%, FineDiving의 동작 품질 평가가 15% 개선되는 등 향상된 성능을 보여줍니다.
English
The performance of Large Vision Language Models (LVLMs) is dependent on the
size and quality of their training datasets. Existing video instruction tuning
datasets lack diversity as they are derived by prompting large language models
with video captions to generate question-answer pairs, and are therefore mostly
descriptive. Meanwhile, many labeled video datasets with diverse labels and
supervision exist - however, we find that their integration into LVLMs is
non-trivial. Herein, we present Video Self-Training with augmented Reasoning
(Video-STaR), the first video self-training approach. Video-STaR allows the
utilization of any labeled video dataset for video instruction tuning. In
Video-STaR, an LVLM cycles between instruction generation and finetuning, which
we show (I) improves general video understanding and (II) adapts LVLMs to novel
downstream tasks with existing supervision. During generation, an LVLM is
prompted to propose an answer. The answers are then filtered only to those that
contain the original video labels, and the LVLM is then re-trained on the
generated dataset. By only training on generated answers that contain the
correct video labels, Video-STaR utilizes these existing video labels as weak
supervision for video instruction tuning. Our results demonstrate that
Video-STaR-enhanced LVLMs exhibit improved performance in (I) general video QA,
where TempCompass performance improved by 10%, and (II) on downstream tasks,
where Video-STaR improved Kinetics700-QA accuracy by 20% and action quality
assessment on FineDiving by 15%.Summary
AI-Generated Summary