Lei da Representação Visual em MLLMs
Law of Vision Representation in MLLMs
August 29, 2024
Autores: Shijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu
cs.AI
Resumo
Apresentamos a "Lei da Representação Visual" em modelos de linguagem grandes multimodais (MLLMs). Esta lei revela uma forte correlação entre a combinação do alinhamento cross-modal, a correspondência na representação visual e o desempenho dos MLLMs. Quantificamos estes dois fatores através da pontuação de Alinhamento e Correspondência cross-modal (pontuação AC). Por meio de extensos experimentos envolvendo treze configurações diferentes de representação visual e avaliações em oito benchmarks, descobrimos que a pontuação AC está linearmente correlacionada com o desempenho do modelo. Aproveitando esta relação, conseguimos identificar e treinar apenas a representação visual ótima, o que não requer o ajuste fino do modelo de linguagem a cada vez, resultando numa redução de 99,7% no custo computacional.
English
We present the "Law of Vision Representation" in multimodal large language
models (MLLMs). It reveals a strong correlation between the combination of
cross-modal alignment, correspondence in vision representation, and MLLM
performance. We quantify the two factors using the cross-modal Alignment and
Correspondence score (AC score). Through extensive experiments involving
thirteen different vision representation settings and evaluations across eight
benchmarks, we find that the AC score is linearly correlated to model
performance. By leveraging this relationship, we are able to identify and train
the optimal vision representation only, which does not require finetuning the
language model every time, resulting in a 99.7% reduction in computational
cost.