Legge della Rappresentazione Visiva nei MLLM
Law of Vision Representation in MLLMs
August 29, 2024
Autori: Shijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu
cs.AI
Abstract
Presentiamo la "Legge della Rappresentazione Visiva" nei modelli linguistici multimodali di grandi dimensioni (MLLM). Essa rivela una forte correlazione tra la combinazione di allineamento cross-modale, corrispondenza nella rappresentazione visiva e prestazioni degli MLLM. Quantifichiamo i due fattori utilizzando il punteggio di Allineamento e Corrispondenza (AC score). Attraverso esperimenti estesi che coinvolgono tredici diverse configurazioni di rappresentazione visiva e valutazioni su otto benchmark, scopriamo che il punteggio AC è linearmente correlato alle prestazioni del modello. Sfruttando questa relazione, siamo in grado di identificare e addestrare esclusivamente la rappresentazione visiva ottimale, che non richiede di perfezionare il modello linguistico ogni volta, con una riduzione del 99,7% del costo computazionale.
English
We present the "Law of Vision Representation" in multimodal large language
models (MLLMs). It reveals a strong correlation between the combination of
cross-modal alignment, correspondence in vision representation, and MLLM
performance. We quantify the two factors using the cross-modal Alignment and
Correspondence score (AC score). Through extensive experiments involving
thirteen different vision representation settings and evaluations across eight
benchmarks, we find that the AC score is linearly correlated to model
performance. By leveraging this relationship, we are able to identify and train
the optimal vision representation only, which does not require finetuning the
language model every time, resulting in a 99.7% reduction in computational
cost.