Entschlüsselung der Cross-Modalen Ausrichtung in großen Vision-Sprach-Modellen mit der Modalitätsintegrationsrate.
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
October 9, 2024
Autoren: Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu
cs.AI
Zusammenfassung
Wir präsentieren die Modality Integration Rate (MIR), eine effektive, robuste und generalisierte Metrik zur Anzeige der multimodalen Vor-Training-Qualität von Large Vision Language Models (LVLMs). Das groß angelegte Vor-Training spielt eine entscheidende Rolle beim Aufbau leistungsfähiger LVLMs, während die Bewertung seiner Trainingsqualität ohne die kostspielige überwachte Feinabstimmungsphase untererforscht ist. Verlust, Perplexität und In-Kontext-Evaluierungsergebnisse sind übliche Vor-Training-Metriken für Large Language Models (LLMs), während wir beobachtet haben, dass diese Metriken weniger aussagekräftig sind, wenn es darum geht, einen gut trainierten LLM mit einer neuen Modalität in Einklang zu bringen. Aufgrund des Mangels an geeigneten Metriken wird die Forschung an LVLMs in der kritischen Vor-Training-Phase erheblich behindert, einschließlich der Wahl der Trainingsdaten, effizienten Modulentwurfs usw. In diesem Paper schlagen wir vor, die Vor-Training-Qualität aus der Perspektive des intermodalen Verteilungsabstands zu bewerten und präsentieren MIR, die Modality Integration Rate, die 1) Effektiv ist, um die Vor-Training-Qualität darzustellen und eine positive Beziehung zur Benchmark-Leistung nach überwachter Feinabstimmung aufzeigt. 2) Robust gegenüber unterschiedlichen Trainings-/Evaluierungsdaten ist. 3) Sich über verschiedene Trainingskonfigurationen und Architekturwahl generalisieren lässt. Wir führen eine Reihe von Vor-Training-Experimenten durch, um die Wirksamkeit von MIR zu erkunden und beobachten zufriedenstellende Ergebnisse, die darauf hindeuten, dass MIR aussagekräftig ist hinsichtlich der Auswahl der Trainingsdaten, des Trainingsstrategie-Zeitplans und des Modellarchitekturdesigns, um bessere Vor-Training-Ergebnisse zu erzielen. Wir hoffen, dass MIR eine hilfreiche Metrik für den Aufbau leistungsfähiger LVLMs sein könnte und die folgende Forschung zur Modalitätsausrichtung in verschiedenen Bereichen inspiriert. Unser Code befindet sich unter: https://github.com/shikiw/Modality-Integration-Rate.
English
We present the Modality Integration Rate (MIR), an effective, robust, and
generalized metric to indicate the multi-modal pre-training quality of Large
Vision Language Models (LVLMs). Large-scale pre-training plays a critical role
in building capable LVLMs, while evaluating its training quality without the
costly supervised fine-tuning stage is under-explored. Loss, perplexity, and
in-context evaluation results are commonly used pre-training metrics for Large
Language Models (LLMs), while we observed that these metrics are less
indicative when aligning a well-trained LLM with a new modality. Due to the
lack of proper metrics, the research of LVLMs in the critical pre-training
stage is hindered greatly, including the training data choice, efficient module
design, etc. In this paper, we propose evaluating the pre-training quality from
the inter-modal distribution distance perspective and present MIR, the Modality
Integration Rate, which is 1) Effective to represent the pre-training
quality and show a positive relation with the benchmark performance after
supervised fine-tuning. 2) Robust toward different training/evaluation
data. 3) Generalize across training configurations and architecture
choices. We conduct a series of pre-training experiments to explore the
effectiveness of MIR and observe satisfactory results that MIR is indicative
about training data selection, training strategy schedule, and model
architecture design to get better pre-training results. We hope MIR could be a
helpful metric for building capable LVLMs and inspire the following research
about modality alignment in different areas. Our code is at:
https://github.com/shikiw/Modality-Integration-Rate.Summary
AI-Generated Summary