ChatPaper.aiChatPaper

合成データを用いたビデオ指示の調整

Video Instruction Tuning With Synthetic Data

October 3, 2024
著者: Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li
cs.AI

要旨

ビデオ大規模マルチモーダルモデル(LMMs)の開発は、ウェブから大量で高品質な生データを収集する難しさによって妨げられてきました。この課題に対処するために、私たちはビデオ指示に従うための高品質な合成データセット、具体的にはLLaVA-Video-178Kを作成することで代替手法を提案します。このデータセットには、詳細なキャプショニング、オープンエンドの質疑応答(QA)、および多肢選択式QAなどの主要なタスクが含まれています。このデータセットでのトレーニングを行い、既存のビジュアル指示チューニングデータと組み合わせることで、新しいビデオLMMであるLLaVA-Videoを導入します。私たちの実験は、LLaVA-Videoがさまざまなビデオベンチマークで強力なパフォーマンスを達成し、当該データセットの効果を示しています。私たちは、データセット、その生成パイプライン、およびモデルのチェックポイントを公開する予定です。
English
The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset specifically for video instruction-following, namely LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning, open-ended question-answering (QA), and multiple-choice QA. By training on this dataset, in combination with existing visual instruction tuning data, we introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that LLaVA-Video achieves strong performance across various video benchmarks, highlighting the effectiveness of our dataset. We plan to release the dataset, its generation pipeline, and the model checkpoints.

Summary

AI-Generated Summary

PDF393November 16, 2024