ChatPaper.aiChatPaper

대규모 비전-언어 모델에서의 교차 모달 정렬 해독과 모달 통합 비율

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate

October 9, 2024
저자: Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu
cs.AI

초록

우리는 대규모 비전 언어 모델(LVLMs)의 다중 모달 사전 훈련 품질을 나타내는 효과적이고 견고하며 일반화된 측정 항목인 Modal Integration Rate (MIR)을 제시합니다. 대규모 사전 훈련은 능력 있는 LVLMs를 구축하는 데 중요한 역할을 하지만, 비용이 많이 드는 지도형 미세 조정 단계 없이 훈련 품질을 평가하는 것은 미개척된 영역입니다. 손실, 혼란도 및 문맥 평가 결과는 대형 언어 모델(LLMs)의 사전 훈련 측정 항목으로 일반적으로 사용되지만, 잘 훈련된 LLM을 새로운 모달리티에 맞추는 경우 이러한 측정 항목들이 적합하지 않다는 것을 관찰했습니다. 적절한 측정 항목의 부재로 인해, LVLMs의 중요한 사전 훈련 단계에서의 연구가 크게 제약되고 있으며, 이는 훈련 데이터 선택, 효율적인 모듈 설계 등을 포함합니다. 본 논문에서는 사전 훈련 품질을 상호 모달 분포 거리 관점에서 평가하고, 사전 훈련 품질을 효과적으로 나타내며 지도형 미세 조정 이후의 벤치마크 성능과 긍정적인 관계를 보여주는 Modal Integration Rate(MIR)을 제시합니다. 또한, MIR은 다양한 훈련/평가 데이터에 대해 견고하며, 훈련 구성 및 아키텍처 선택에 걸쳐 일반화됩니다. 우리는 MIR의 효과성을 탐색하기 위해 일련의 사전 훈련 실험을 수행하고, MIR이 훈련 데이터 선택, 훈련 전략 일정, 모델 아키텍처 설계에 대한 표시적인 결과를 관찰하며 더 나은 사전 훈련 결과를 얻기 위한 지침을 제공합니다. MIR이 능력 있는 LVLMs를 구축하는 데 도움이 되고 다양한 영역에서의 모달리티 정렬에 대한 후속 연구를 영감을 줄 수 있기를 희망합니다. 우리의 코드는 다음에서 확인할 수 있습니다: https://github.com/shikiw/Modality-Integration-Rate.
English
We present the Modality Integration Rate (MIR), an effective, robust, and generalized metric to indicate the multi-modal pre-training quality of Large Vision Language Models (LVLMs). Large-scale pre-training plays a critical role in building capable LVLMs, while evaluating its training quality without the costly supervised fine-tuning stage is under-explored. Loss, perplexity, and in-context evaluation results are commonly used pre-training metrics for Large Language Models (LLMs), while we observed that these metrics are less indicative when aligning a well-trained LLM with a new modality. Due to the lack of proper metrics, the research of LVLMs in the critical pre-training stage is hindered greatly, including the training data choice, efficient module design, etc. In this paper, we propose evaluating the pre-training quality from the inter-modal distribution distance perspective and present MIR, the Modality Integration Rate, which is 1) Effective to represent the pre-training quality and show a positive relation with the benchmark performance after supervised fine-tuning. 2) Robust toward different training/evaluation data. 3) Generalize across training configurations and architecture choices. We conduct a series of pre-training experiments to explore the effectiveness of MIR and observe satisfactory results that MIR is indicative about training data selection, training strategy schedule, and model architecture design to get better pre-training results. We hope MIR could be a helpful metric for building capable LVLMs and inspire the following research about modality alignment in different areas. Our code is at: https://github.com/shikiw/Modality-Integration-Rate.

Summary

AI-Generated Summary

PDF402November 16, 2024