MLLMにおける視覚表現の法則
Law of Vision Representation in MLLMs
August 29, 2024
著者: Shijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu
cs.AI
要旨
本論文では、マルチモーダル大規模言語モデル(MLLM)における「視覚表現の法則」を提示する。これは、クロスモーダルアラインメント、視覚表現の対応関係、およびMLLMの性能の間に強い相関があることを明らかにするものである。我々は、クロスモーダルアラインメントと対応関係スコア(ACスコア)を用いてこれら2つの要因を定量化した。13種類の異なる視覚表現設定と8つのベンチマークにわたる広範な実験を通じて、ACスコアがモデルの性能と線形相関を持つことを発見した。この関係を活用することで、最適な視覚表現のみを特定し、訓練することが可能となり、毎回言語モデルのファインチューニングを必要としないため、計算コストを99.7%削減することができた。
English
We present the "Law of Vision Representation" in multimodal large language
models (MLLMs). It reveals a strong correlation between the combination of
cross-modal alignment, correspondence in vision representation, and MLLM
performance. We quantify the two factors using the cross-modal Alignment and
Correspondence score (AC score). Through extensive experiments involving
thirteen different vision representation settings and evaluations across eight
benchmarks, we find that the AC score is linearly correlated to model
performance. By leveraging this relationship, we are able to identify and train
the optimal vision representation only, which does not require finetuning the
language model every time, resulting in a 99.7% reduction in computational
cost.