Расшифровка кросс-модального выравнивания в крупных моделях видео-языкового взаимодействия с уровнем интеграции модальностей.
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
October 9, 2024
Авторы: Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu
cs.AI
Аннотация
Мы представляем показатель скорости интеграции модальностей (MIR) - эффективную, надежную и обобщенную метрику, позволяющую оценить качество мульти-модального предварительного обучения больших моделей языка и зрения (LVLM). Крупномасштабное предварительное обучение играет ключевую роль в создании способных LVLM, однако оценка его качества обучения без дорогостоящего этапа надзорного дообучения до конца не исследована. Потери, перплексия и результаты оценки в контексте обычно используются в качестве метрик предварительного обучения для больших моделей языка (LLM), однако мы обнаружили, что эти метрики менее информативны при сопоставлении хорошо обученной LLM с новой модальностью. Из-за отсутствия соответствующих метрик исследования LVLM на критическом этапе предварительного обучения значительно затруднено, включая выбор обучающих данных, эффективное проектирование модулей и т. д. В данной статье мы предлагаем оценивать качество предварительного обучения с точки зрения расстояния между интер-модальными распределениями и представляем MIR, показатель скорости интеграции модальностей, который: 1) Эффективно отражает качество предварительного обучения и демонстрирует положительную связь с результатами испытаний после надзорного дообучения. 2) Надежен при использовании различных обучающих/оценочных данных. 3) Обобщается на различные конфигурации обучения и выбор архитектуры. Мы проводим серию экспериментов по предварительному обучению для изучения эффективности MIR и наблюдаем удовлетворительные результаты, показывающие, что MIR информативен относительно выбора обучающих данных, графика обучения и проектирования архитектуры модели для получения лучших результатов предварительного обучения. Мы надеемся, что MIR может стать полезной метрикой для создания способных LVLM и вдохновить последующие исследования в области согласования модальностей в различных областях. Наш код доступен по ссылке: https://github.com/shikiw/Modality-Integration-Rate.
English
We present the Modality Integration Rate (MIR), an effective, robust, and
generalized metric to indicate the multi-modal pre-training quality of Large
Vision Language Models (LVLMs). Large-scale pre-training plays a critical role
in building capable LVLMs, while evaluating its training quality without the
costly supervised fine-tuning stage is under-explored. Loss, perplexity, and
in-context evaluation results are commonly used pre-training metrics for Large
Language Models (LLMs), while we observed that these metrics are less
indicative when aligning a well-trained LLM with a new modality. Due to the
lack of proper metrics, the research of LVLMs in the critical pre-training
stage is hindered greatly, including the training data choice, efficient module
design, etc. In this paper, we propose evaluating the pre-training quality from
the inter-modal distribution distance perspective and present MIR, the Modality
Integration Rate, which is 1) Effective to represent the pre-training
quality and show a positive relation with the benchmark performance after
supervised fine-tuning. 2) Robust toward different training/evaluation
data. 3) Generalize across training configurations and architecture
choices. We conduct a series of pre-training experiments to explore the
effectiveness of MIR and observe satisfactory results that MIR is indicative
about training data selection, training strategy schedule, and model
architecture design to get better pre-training results. We hope MIR could be a
helpful metric for building capable LVLMs and inspire the following research
about modality alignment in different areas. Our code is at:
https://github.com/shikiw/Modality-Integration-Rate.Summary
AI-Generated Summary