LongVILA: 長尺動画向け長文脈視覚言語モデルのスケーリングLongVILA: Scaling Long-Context Visual Language Models for Long Videos
長文脈対応能力はマルチモーダル基盤モデルにとって極めて重要です。本論文では、長文脈視覚言語モデルのためのフルスタックソリューションであるLongVILAを紹介します。これにはシステム、モデルトレーニング、データセット開発が含まれます。システム面では、256GPUで200万トークンの文脈長トレーニングを可能にする初のマルチモーダルシーケンス並列処理(MM-SP)システムを提案します。MM-SPは効率的で、Ring-Styleシーケンス並列処理よりも2.1~5.7倍、テキストのみの設定ではMegatron-LMよりも1.1~1.4倍高速です。さらに、Hugging Face Transformersとシームレスに統合されます。モデルトレーニングでは、アライメント、事前学習、文脈拡張、長短結合教師ありファインチューニングからなる5段階パイプラインを提案します。データセットに関しては、大規模な視覚言語事前学習データセットと長尺ビデオ指示追従データセットを慎重に構築し、多段階トレーニングプロセスをサポートします。このフルスタックソリューションにより、VILAの実現可能フレーム数が128倍(8フレームから1024フレーム)に拡張され、長尺ビデオキャプショニングスコアが2.00から3.26(1.6倍)に向上し、1400フレーム(27万4千トークン文脈長)の「干し草の山の中の針」タスクで99.5%の精度を達成しました。また、LongVILA-8Bは、VideoMMEベンチマークにおいて、ビデオフレーム数が増えるにつれて長尺ビデオのパフォーマンスが一貫して向上することを示しています。