ChatPaper.aiChatPaper

Het ontcijferen van Cross-Modale Afstemming in Grote Visie-Taal Modellen met Modaliteit Integratiegraad

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate

October 9, 2024
Auteurs: Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu
cs.AI

Samenvatting

We presenteren de Modality Integration Rate (MIR), een effectieve, robuuste en gegeneraliseerde metriek om de kwaliteit van multimodale voorafgaande training van Grote Visie Taalmodellen (LVLM's) aan te geven. Grootschalige voorafgaande training speelt een cruciale rol bij het opbouwen van capabele LVLM's, terwijl het evalueren van de trainingskwaliteit zonder de kostbare begeleide fijnafstemmingsfase onderbelicht blijft. Verlies, perplexiteit en in-context evaluatieresultaten worden vaak gebruikt als voorafgaande trainingsmetrieken voor Grote Taalmodellen (LLM's), terwijl we hebben waargenomen dat deze metrieken minder indicatief zijn bij het afstemmen van een goed getraind LLM met een nieuwe modaliteit. Vanwege het gebrek aan geschikte metrieken wordt het onderzoek naar LVLM's in de kritieke voorafgaande trainingsfase aanzienlijk belemmerd, inclusief de keuze van trainingsgegevens, efficiënt module-ontwerp, enzovoort. In dit artikel stellen we voor om de kwaliteit van de voorafgaande training te evalueren vanuit het perspectief van de afstand tussen intermodale distributies en presenteren we MIR, de Modality Integration Rate, die 1) Effectief is om de voorafgaande trainingskwaliteit te vertegenwoordigen en een positieve relatie laat zien met de benchmarkprestaties na begeleide fijnafstemming. 2) Robuust is ten opzichte van verschillende trainings-/evaluatiegegevens. 3) Generaliseert over verschillende trainingsconfiguraties en architectuurkeuzes. We voeren een reeks voorafgaande trainingsexperimenten uit om de effectiviteit van MIR te verkennen en observeren bevredigende resultaten waaruit blijkt dat MIR indicatief is voor de selectie van trainingsgegevens, trainingsstrategieplanning en modelarchitectuurontwerp om betere voorafgaande trainingsresultaten te behalen. We hopen dat MIR een nuttige metriek kan zijn voor het opbouwen van capabele LVLM's en het inspireren van verder onderzoek naar modaliteitsafstemming in verschillende gebieden. Onze code is te vinden op: https://github.com/shikiw/Modality-Integration-Rate.
English
We present the Modality Integration Rate (MIR), an effective, robust, and generalized metric to indicate the multi-modal pre-training quality of Large Vision Language Models (LVLMs). Large-scale pre-training plays a critical role in building capable LVLMs, while evaluating its training quality without the costly supervised fine-tuning stage is under-explored. Loss, perplexity, and in-context evaluation results are commonly used pre-training metrics for Large Language Models (LLMs), while we observed that these metrics are less indicative when aligning a well-trained LLM with a new modality. Due to the lack of proper metrics, the research of LVLMs in the critical pre-training stage is hindered greatly, including the training data choice, efficient module design, etc. In this paper, we propose evaluating the pre-training quality from the inter-modal distribution distance perspective and present MIR, the Modality Integration Rate, which is 1) Effective to represent the pre-training quality and show a positive relation with the benchmark performance after supervised fine-tuning. 2) Robust toward different training/evaluation data. 3) Generalize across training configurations and architecture choices. We conduct a series of pre-training experiments to explore the effectiveness of MIR and observe satisfactory results that MIR is indicative about training data selection, training strategy schedule, and model architecture design to get better pre-training results. We hope MIR could be a helpful metric for building capable LVLMs and inspire the following research about modality alignment in different areas. Our code is at: https://github.com/shikiw/Modality-Integration-Rate.

Summary

AI-Generated Summary

PDF402November 16, 2024