2.5年間のクラス:ビジョン言語のためのマルチモーダル教科書の事前学習2.5 Years in Class: A Multimodal Textbook for Vision-Language
Pretraining
画像とテキストのペアデータと比較して、交互に配置されたコーパスは、ビジョン・ランゲージ・モデル(VLM)が人間のように世界をより自然に理解するのを可能にします。ただし、既存のこれらのデータセットはウェブページからクロールされており、知識密度が低い、画像とテキストの関係が緩やかである、画像間の論理的な整合性が低いなどの課題に直面しています。一方、インターネットには広範囲にわたる指導ビデオ(例:オンライン幾何学コース)があり、これらは人間が基礎科目を学ぶために広く利用されていますが、VLMのトレーニングにおいては未だ未開拓の貴重なリソースです。本論文では、VLMの事前トレーニングにより豊富な基礎知識を提供する高品質なマルチモーダル教科書コーパスを紹介します。これは、2.5年以上にわたる指導ビデオを収集し、合計22,000時間の授業を提供しています。まず、LLMが提案するタクソノミーを使用して、指導ビデオを体系的に収集します。その後、ビデオから視覚的な知識(キーフレーム)、音声(ASR)、およびテキストの知識(OCR)を段階的に抽出および洗練し、時間的順序に基づいて画像とテキストが交互に配置されたコーパスとして整理します。他の類似物と比較して、当社のビデオ中心の教科書は、より整合性のあるコンテキスト、豊富な知識、およびより良い画像とテキストの整列を提供します。実験により、その優れた事前トレーニングパフォーマンスが示され、特にScienceQAやMathVistaなどの知識と推論が必要なタスクにおいて優れた結果を達成します。さらに、当社の教科書で事前トレーニングされたVLMは、タスク解決のためのフューショットコンテキストで視覚的およびテキストの手がかりを活用した優れた交互配置コンテキスト認識を示します。当社のコードは\url{https://github.com/DAMO-NLP-SG/multimodal_textbook}で入手可能です。