ChatPaper.aiChatPaper

Déchiffrer l'alignement croisé des modalités dans les grands modèles de vision-langage avec le taux d'intégration des modalités.

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate

October 9, 2024
Auteurs: Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu
cs.AI

Résumé

Nous présentons le Taux d'Intégration des Modalités (MIR), une mesure efficace, robuste et généralisée pour indiquer la qualité de pré-entraînement multi-modale des Grands Modèles Langage-Vision (LVLM). Le pré-entraînement à grande échelle joue un rôle critique dans la construction de LVLM capables, tandis que l'évaluation de sa qualité d'entraînement sans la coûteuse étape de fine-tuning supervisé est peu explorée. La perte, la perplexité et les résultats d'évaluation en contexte sont des mesures couramment utilisées pour les Grands Modèles de Langage (LLMs), alors que nous avons observé que ces mesures sont moins indicatives lors de l'alignement d'un LLM bien entraîné avec une nouvelle modalité. En raison du manque de mesures appropriées, la recherche sur les LVLMs dans l'étape critique de pré-entraînement est grandement entravée, y compris le choix des données d'entraînement, la conception efficace des modules, etc. Dans cet article, nous proposons d'évaluer la qualité de pré-entraînement du point de vue de la distance de distribution inter-modale et présentons le MIR, le Taux d'Intégration des Modalités, qui est 1) Efficace pour représenter la qualité de pré-entraînement et montrer une relation positive avec les performances de référence après le fine-tuning supervisé. 2) Robuste face à différentes données d'entraînement/évaluation. 3) Généralisable à travers différentes configurations d'entraînement et choix d'architecture. Nous menons une série d'expériences de pré-entraînement pour explorer l'efficacité du MIR et observons des résultats satisfaisants indiquant que le MIR est informatif sur la sélection des données d'entraînement, la planification de la stratégie d'entraînement et la conception de l'architecture du modèle pour obtenir de meilleurs résultats de pré-entraînement. Nous espérons que le MIR pourrait être une mesure utile pour la construction de LVLM capables et inspirer les recherches ultérieures sur l'alignement des modalités dans différents domaines. Notre code est disponible sur : https://github.com/shikiw/Modality-Integration-Rate.
English
We present the Modality Integration Rate (MIR), an effective, robust, and generalized metric to indicate the multi-modal pre-training quality of Large Vision Language Models (LVLMs). Large-scale pre-training plays a critical role in building capable LVLMs, while evaluating its training quality without the costly supervised fine-tuning stage is under-explored. Loss, perplexity, and in-context evaluation results are commonly used pre-training metrics for Large Language Models (LLMs), while we observed that these metrics are less indicative when aligning a well-trained LLM with a new modality. Due to the lack of proper metrics, the research of LVLMs in the critical pre-training stage is hindered greatly, including the training data choice, efficient module design, etc. In this paper, we propose evaluating the pre-training quality from the inter-modal distribution distance perspective and present MIR, the Modality Integration Rate, which is 1) Effective to represent the pre-training quality and show a positive relation with the benchmark performance after supervised fine-tuning. 2) Robust toward different training/evaluation data. 3) Generalize across training configurations and architecture choices. We conduct a series of pre-training experiments to explore the effectiveness of MIR and observe satisfactory results that MIR is indicative about training data selection, training strategy schedule, and model architecture design to get better pre-training results. We hope MIR could be a helpful metric for building capable LVLMs and inspire the following research about modality alignment in different areas. Our code is at: https://github.com/shikiw/Modality-Integration-Rate.

Summary

AI-Generated Summary

PDF402November 16, 2024