Descifrar la alineación cruzada entre modalidades en grandes modelos de visión y lenguaje con la Tasa de Integración de Modalidades.
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
October 9, 2024
Autores: Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu
cs.AI
Resumen
Presentamos la Tasa de Integración de Modalidades (MIR), una métrica efectiva, robusta y generalizada para indicar la calidad de pre-entrenamiento multi-modal de Modelos de Lenguaje de Visión Amplia (LVLMs). El pre-entrenamiento a gran escala juega un papel crítico en la construcción de LVLMs capaces, mientras que evaluar su calidad de entrenamiento sin la costosa etapa de ajuste fino supervisado está poco explorado. La pérdida, la perplejidad y los resultados de evaluación en contexto son métricas comúnmente utilizadas para el pre-entrenamiento de Modelos de Lenguaje Amplio (LLMs), mientras que observamos que estas métricas son menos indicativas al alinear un LLM bien entrenado con una nueva modalidad. Debido a la falta de métricas adecuadas, la investigación de LVLMs en la etapa crítica de pre-entrenamiento se ve enormemente obstaculizada, incluida la elección de datos de entrenamiento, el diseño eficiente de módulos, etc. En este documento, proponemos evaluar la calidad de pre-entrenamiento desde la perspectiva de la distancia de distribución inter-modal y presentamos MIR, la Tasa de Integración de Modalidades, que es 1) Efectiva para representar la calidad de pre-entrenamiento y mostrar una relación positiva con el rendimiento de referencia después del ajuste fino supervisado. 2) Robusta ante diferentes datos de entrenamiento/evaluación. 3) Generalizable a través de configuraciones de entrenamiento y elecciones de arquitectura. Realizamos una serie de experimentos de pre-entrenamiento para explorar la efectividad de MIR y observamos resultados satisfactorios que indican que MIR es informativa sobre la selección de datos de entrenamiento, la programación de estrategias de entrenamiento y el diseño de arquitectura de modelos para obtener mejores resultados de pre-entrenamiento. Esperamos que MIR pueda ser una métrica útil para construir LVLMs capaces e inspirar la investigación siguiente sobre el alineamiento de modalidades en diferentes áreas. Nuestro código está en: https://github.com/shikiw/Modality-Integration-Rate.
English
We present the Modality Integration Rate (MIR), an effective, robust, and
generalized metric to indicate the multi-modal pre-training quality of Large
Vision Language Models (LVLMs). Large-scale pre-training plays a critical role
in building capable LVLMs, while evaluating its training quality without the
costly supervised fine-tuning stage is under-explored. Loss, perplexity, and
in-context evaluation results are commonly used pre-training metrics for Large
Language Models (LLMs), while we observed that these metrics are less
indicative when aligning a well-trained LLM with a new modality. Due to the
lack of proper metrics, the research of LVLMs in the critical pre-training
stage is hindered greatly, including the training data choice, efficient module
design, etc. In this paper, we propose evaluating the pre-training quality from
the inter-modal distribution distance perspective and present MIR, the Modality
Integration Rate, which is 1) Effective to represent the pre-training
quality and show a positive relation with the benchmark performance after
supervised fine-tuning. 2) Robust toward different training/evaluation
data. 3) Generalize across training configurations and architecture
choices. We conduct a series of pre-training experiments to explore the
effectiveness of MIR and observe satisfactory results that MIR is indicative
about training data selection, training strategy schedule, and model
architecture design to get better pre-training results. We hope MIR could be a
helpful metric for building capable LVLMs and inspire the following research
about modality alignment in different areas. Our code is at:
https://github.com/shikiw/Modality-Integration-Rate.Summary
AI-Generated Summary