Gesetz der visuellen Repräsentation in MLLMs
Law of Vision Representation in MLLMs
August 29, 2024
papers.authors: Shijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu
cs.AI
papers.abstract
Wir präsentieren das „Gesetz der visuellen Repräsentation“ in multimodalen großen Sprachmodellen (MLLMs). Es zeigt eine starke Korrelation zwischen der Kombination von cross-modaler Ausrichtung, Korrespondenz in der visuellen Repräsentation und der Leistung von MLLMs. Wir quantifizieren diese beiden Faktoren mithilfe des cross-modalen Ausrichtungs- und Korrespondenz-Scores (AC-Score). Durch umfangreiche Experimente mit dreizehn verschiedenen Einstellungen der visuellen Repräsentation und Bewertungen über acht Benchmarks hinweg stellen wir fest, dass der AC-Score linear mit der Modellleistung korreliert. Indem wir diese Beziehung nutzen, können wir die optimale visuelle Repräsentation identifizieren und trainieren, ohne jedes Mal das Sprachmodell feinabstimmen zu müssen, was zu einer Reduzierung der Rechenkosten um 99,7 % führt.
English
We present the "Law of Vision Representation" in multimodal large language
models (MLLMs). It reveals a strong correlation between the combination of
cross-modal alignment, correspondence in vision representation, and MLLM
performance. We quantify the two factors using the cross-modal Alignment and
Correspondence score (AC score). Through extensive experiments involving
thirteen different vision representation settings and evaluations across eight
benchmarks, we find that the AC score is linearly correlated to model
performance. By leveraging this relationship, we are able to identify and train
the optimal vision representation only, which does not require finetuning the
language model every time, resulting in a 99.7% reduction in computational
cost.