2.5年在課堂上:一本視覺語言預訓練的多模態教科書2.5 Years in Class: A Multimodal Textbook for Vision-Language
Pretraining
相較於圖像-文字配對數據,交錯語料庫使視覺語言模型(VLM)能更自然地理解世界,就像人類一樣。然而,這些現有數據集是從網頁爬取的,面臨著知識密度低、圖像與文字關係鬆散以及圖像之間邏輯連貫性差等挑戰。另一方面,互聯網上有大量的教學視頻(例如,在線幾何課程),被人們廣泛用於學習基礎科目,然而這些寶貴資源在VLM訓練中尚未得到充分利用。本文介紹了一個高質量的多模態教科書語料庫,為VLM預訓練提供更豐富的基礎知識。它收集了超過2.5年的教學視頻,總計22,000課時。我們首先使用LLM提出的分類法系統地收集教學視頻。然後,我們逐步從視頻中提取和精煉視覺(關鍵幀)、音頻(ASR)和文本知識(OCR),並根據時間順序組織成一個基於圖像和文字交錯的語料庫。與同類產品相比,我們以視頻為中心的教科書提供了更一致的上下文、更豐富的知識和更好的圖像-文字對齊。實驗證明了其出色的預訓練性能,特別是在知識和推理密集型任務(如ScienceQA和MathVista)中。此外,在我們的教科書上預先訓練的VLM表現出優秀的交錯上下文意識,利用視覺和文本線索在少量樣本上下文中解決任務。我們的代碼可在\url{https://github.com/DAMO-NLP-SG/multimodal_textbook}找到。