Decifrar o Alinhamento Cruzado entre Modalidades em Grandes Modelos de Visão e Linguagem com a Taxa de Integração de Modalidade
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
October 9, 2024
Autores: Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu
cs.AI
Resumo
Apresentamos a Taxa de Integração de Modalidade (MIR), uma métrica eficaz, robusta e generalizada para indicar a qualidade de pré-treinamento multi-modal de Modelos de Linguagem de Visão Ampliada (LVLMs). O pré-treinamento em larga escala desempenha um papel crítico na construção de LVLMs capazes, enquanto a avaliação de sua qualidade de treinamento sem a etapa dispendiosa de ajuste fino supervisionado é pouco explorada. Perda, perplexidade e resultados de avaliação no contexto são métricas comumente utilizadas para pré-treinamento de Modelos de Linguagem Ampliada (LLMs), enquanto observamos que essas métricas são menos indicativas ao alinhar um LLM bem treinado com uma nova modalidade. Devido à falta de métricas adequadas, a pesquisa de LVLMs na fase crítica de pré-treinamento é grandemente prejudicada, incluindo a escolha dos dados de treinamento, o design eficiente do módulo, etc. Neste artigo, propomos avaliar a qualidade do pré-treinamento a partir da perspectiva da distância de distribuição inter-modal e apresentamos o MIR, a Taxa de Integração de Modalidade, que é 1) Eficaz para representar a qualidade do pré-treinamento e mostrar uma relação positiva com o desempenho de referência após o ajuste fino supervisionado. 2) Robusto em relação a diferentes dados de treinamento/avaliação. 3) Generaliza em diferentes configurações de treinamento e escolhas de arquitetura. Realizamos uma série de experimentos de pré-treinamento para explorar a eficácia do MIR e observamos resultados satisfatórios que indicam que o MIR é informativo sobre a seleção de dados de treinamento, programação da estratégia de treinamento e design da arquitetura do modelo para obter melhores resultados de pré-treinamento. Esperamos que o MIR possa ser uma métrica útil para a construção de LVLMs capazes e inspirar pesquisas futuras sobre o alinhamento de modalidades em diferentes áreas. Nosso código está em: https://github.com/shikiw/Modality-Integration-Rate.
English
We present the Modality Integration Rate (MIR), an effective, robust, and
generalized metric to indicate the multi-modal pre-training quality of Large
Vision Language Models (LVLMs). Large-scale pre-training plays a critical role
in building capable LVLMs, while evaluating its training quality without the
costly supervised fine-tuning stage is under-explored. Loss, perplexity, and
in-context evaluation results are commonly used pre-training metrics for Large
Language Models (LLMs), while we observed that these metrics are less
indicative when aligning a well-trained LLM with a new modality. Due to the
lack of proper metrics, the research of LVLMs in the critical pre-training
stage is hindered greatly, including the training data choice, efficient module
design, etc. In this paper, we propose evaluating the pre-training quality from
the inter-modal distribution distance perspective and present MIR, the Modality
Integration Rate, which is 1) Effective to represent the pre-training
quality and show a positive relation with the benchmark performance after
supervised fine-tuning. 2) Robust toward different training/evaluation
data. 3) Generalize across training configurations and architecture
choices. We conduct a series of pre-training experiments to explore the
effectiveness of MIR and observe satisfactory results that MIR is indicative
about training data selection, training strategy schedule, and model
architecture design to get better pre-training results. We hope MIR could be a
helpful metric for building capable LVLMs and inspire the following research
about modality alignment in different areas. Our code is at:
https://github.com/shikiw/Modality-Integration-Rate.Summary
AI-Generated Summary