시각-언어 모델 구축 및 더 나은 이해: 통찰과 미래 방향Building and better understanding vision-language models: insights and
future directions
시각-언어 모델(VLMs) 분야는 이미지와 텍스트를 입력으로 받아들이고 텍스트를 출력하는 모델로, 빠르게 발전하고 있으며 데이터, 아키텍처, 그리고 훈련 방법을 포함한 개발 파이프라인의 여러 중요 측면에 대한 합의에 도달하지 못한 상태입니다. 본 논문은 VLM을 구축하기 위한 안내서로 볼 수 있습니다. 우리는 현재의 최첨단 접근 방식에 대한 포괄적인 개요를 제공하고, 각각의 장단점을 강조하며, 분야에서의 주요 도전 과제를 다루고, 미개척 영역에 대한 유망한 연구 방향을 제안합니다. 그런 다음, Idefics3-8B를 구축하는 실제 단계를 안내합니다. 이 모델은 이전 모델인 Idefics2-8B보다 우수한 성능을 발휘하며, 효율적으로 훈련되었으며, 공개 데이터셋만을 사용하고 간단한 파이프라인을 사용합니다. 이러한 단계에는 문서 이해 능력을 향상시키기 위한 데이터셋인 Docmatix의 생성이 포함되어 있으며, 이는 이전에 사용 가능했던 데이터셋보다 240배 큽니다. 우리는 해당 모델과 그 훈련을 위해 생성된 데이터셋을 함께 공개합니다.