Loi de représentation visuelle dans les MLLM
Law of Vision Representation in MLLMs
August 29, 2024
papers.authors: Shijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu
cs.AI
papers.abstract
Nous présentons la « Loi de la Représentation Visuelle » dans les modèles de langage multimodaux de grande taille (MLLMs). Elle révèle une forte corrélation entre la combinaison de l'alignement intermodal, la correspondance dans la représentation visuelle et la performance des MLLMs. Nous quantifions ces deux facteurs à l'aide du score d'Alignement et de Correspondance intermodale (score AC). À travers des expériences approfondies impliquant treize configurations différentes de représentation visuelle et des évaluations sur huit benchmarks, nous constatons que le score AC est linéairement corrélé à la performance du modèle. En exploitant cette relation, nous sommes en mesure d'identifier et d'entraîner uniquement la représentation visuelle optimale, ce qui ne nécessite pas de réajuster le modèle de langage à chaque fois, entraînant ainsi une réduction de 99,7 % des coûts de calcul.
English
We present the "Law of Vision Representation" in multimodal large language
models (MLLMs). It reveals a strong correlation between the combination of
cross-modal alignment, correspondence in vision representation, and MLLM
performance. We quantify the two factors using the cross-modal Alignment and
Correspondence score (AC score). Through extensive experiments involving
thirteen different vision representation settings and evaluations across eight
benchmarks, we find that the AC score is linearly correlated to model
performance. By leveraging this relationship, we are able to identify and train
the optimal vision representation only, which does not require finetuning the
language model every time, resulting in a 99.7% reduction in computational
cost.