MLLMにおける視覚表現の法則Law of Vision Representation in MLLMs
本論文では、マルチモーダル大規模言語モデル(MLLM)における「視覚表現の法則」を提示する。これは、クロスモーダルアラインメント、視覚表現の対応関係、およびMLLMの性能の間に強い相関があることを明らかにするものである。我々は、クロスモーダルアラインメントと対応関係スコア(ACスコア)を用いてこれら2つの要因を定量化した。13種類の異なる視覚表現設定と8つのベンチマークにわたる広範な実験を通じて、ACスコアがモデルの性能と線形相関を持つことを発見した。この関係を活用することで、最適な視覚表現のみを特定し、訓練することが可能となり、毎回言語モデルのファインチューニングを必要としないため、計算コストを99.7%削減することができた。