수업에서 2.5년: 시각-언어에 대한 다중 모달 교재 사전 훈련2.5 Years in Class: A Multimodal Textbook for Vision-Language
Pretraining
이미지-텍스트 쌍 데이터와 비교했을 때, 교차된 말뭉치는 비전-언어 모델(VLMs)이 인간처럼 세계를 더 자연스럽게 이해할 수 있게 합니다. 그러나 기존 데이터셋은 웹페이지에서 크롤링되어 낮은 지식 밀도, 느슨한 이미지-텍스트 관계, 그리고 이미지 간의 논리적 일관성 부족과 같은 어려움에 직면합니다. 반면, 인터넷에는 인간들이 핵심 주제를 학습하는 데 널리 사용되는 온라인 기하학 수업과 같은 방대한 교육 동영상이 있지만, 이러한 가치 있는 자료들은 VLM 훈련에서 아직 충분히 탐구되지 않았습니다. 본 논문에서는 VLM 사전 훈련을 위한 보다 풍부한 기본 지식을 갖춘 고품질 다중 모달 교과서 말뭉치를 소개합니다. 이는 2.5년 이상의 교육 동영상을 수집하여 총 22,000 수업 시간을 보유하고 있습니다. 먼저 LLM이 제안한 분류법을 사용하여 체계적으로 교육 동영상을 수집합니다. 그런 다음 동영상에서 시각적(키프레임), 오디오(ASR), 텍스트 지식(OCR)을 점진적으로 추출하고 정제하여 시간 순서에 따라 이미지-텍스트 교차된 말뭉치로 구성합니다. 이와 같은 대조 대상과 비교했을 때, 우리의 비디오 중심 교과서는 더 일관된 맥락, 더 풍부한 지식, 그리고 더 나은 이미지-텍스트 정렬을 제공합니다. 실험 결과는 이 교재를 사용한 우수한 사전 훈련 성능을 입증하며, 특히 ScienceQA와 MathVista와 같은 지식과 추론이 필요한 작업에서 뛰어난 성과를 보입니다. 또한, 우리의 교과서에서 사전 훈련된 VLM은 임무 해결을 위해 시각적 및 텍스트 단서를 활용한 교차된 맥락 인식을 높이는 뛰어난 성과를 보입니다. 저희의 코드는 \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}에서 확인하실 수 있습니다.