Decifrare l'allineamento cross-modale nei grandi modelli di visione-linguaggio con il tasso di integrazione delle modalità
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
October 9, 2024
Autori: Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu
cs.AI
Abstract
Presentiamo il Tasso di Integrazione delle Modalità (MIR), una metrica efficace, robusta e generalizzata per indicare la qualità del pre-training multi-modale dei Grandi Modelli di Linguaggio Visivo (LVLMs). Il pre-training su larga scala svolge un ruolo critico nella costruzione di LVLMs capaci, mentre valutare la qualità del suo addestramento senza la costosa fase di fine-tuning supervisionato è poco esplorato. Per i Grandi Modelli di Linguaggio (LLMs), la perdita, la perplessità e i risultati di valutazione in contesto sono metriche comuni di pre-training, ma abbiamo osservato che queste metriche sono meno indicative quando si allinea un LLM ben addestrato con una nuova modalità. A causa della mancanza di metriche adeguate, la ricerca sui LVLMs nella fase critica di pre-training è fortemente ostacolata, inclusa la scelta dei dati di addestramento, il design efficiente dei moduli, ecc. In questo articolo, proponiamo di valutare la qualità del pre-training dal punto di vista della distanza della distribuzione inter-modale e presentiamo il MIR, il Tasso di Integrazione delle Modalità, che è 1) Efficace per rappresentare la qualità del pre-training e mostrare una relazione positiva con le prestazioni di riferimento dopo il fine-tuning supervisionato. 2) Robusto rispetto a diversi dati di addestramento/valutazione. 3) Generalizzabile attraverso configurazioni di addestramento e scelte di architettura diverse. Conduciamo una serie di esperimenti di pre-training per esplorare l'efficacia del MIR e osserviamo risultati soddisfacenti che indicano che il MIR è indicativo riguardo alla selezione dei dati di addestramento, alla pianificazione della strategia di addestramento e al design dell'architettura del modello per ottenere migliori risultati di pre-training. Speriamo che il MIR possa essere una metrica utile per la costruzione di LVLMs capaci e ispirare la successiva ricerca sull'allineamento delle modalità in diverse aree. Il nostro codice è disponibile su: https://github.com/shikiw/Modality-Integration-Rate.
English
We present the Modality Integration Rate (MIR), an effective, robust, and
generalized metric to indicate the multi-modal pre-training quality of Large
Vision Language Models (LVLMs). Large-scale pre-training plays a critical role
in building capable LVLMs, while evaluating its training quality without the
costly supervised fine-tuning stage is under-explored. Loss, perplexity, and
in-context evaluation results are commonly used pre-training metrics for Large
Language Models (LLMs), while we observed that these metrics are less
indicative when aligning a well-trained LLM with a new modality. Due to the
lack of proper metrics, the research of LVLMs in the critical pre-training
stage is hindered greatly, including the training data choice, efficient module
design, etc. In this paper, we propose evaluating the pre-training quality from
the inter-modal distribution distance perspective and present MIR, the Modality
Integration Rate, which is 1) Effective to represent the pre-training
quality and show a positive relation with the benchmark performance after
supervised fine-tuning. 2) Robust toward different training/evaluation
data. 3) Generalize across training configurations and architecture
choices. We conduct a series of pre-training experiments to explore the
effectiveness of MIR and observe satisfactory results that MIR is indicative
about training data selection, training strategy schedule, and model
architecture design to get better pre-training results. We hope MIR could be a
helpful metric for building capable LVLMs and inspire the following research
about modality alignment in different areas. Our code is at:
https://github.com/shikiw/Modality-Integration-Rate.