Wet van Visuele Representatie in MLLM's
Law of Vision Representation in MLLMs
August 29, 2024
Auteurs: Shijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu
cs.AI
Samenvatting
Wij presenteren de "Wet van Visuele Representatie" in multimodale grote taalmodellen (MLLM's). Deze onthult een sterke correlatie tussen de combinatie van cross-modale alignering, correspondentie in visuele representatie en MLLM-prestaties. Wij kwantificeren de twee factoren met behulp van de cross-modale Alignerings- en Correspondentiescore (AC-score). Uit uitgebreide experimenten met dertien verschillende visuele representatie-instellingen en evaluaties over acht benchmarks blijkt dat de AC-score lineair gecorreleerd is aan modelprestaties. Door deze relatie te benutten, kunnen wij de optimale visuele representatie identificeren en trainen zonder telkens het taalmodel te moeten finetunen, wat resulteert in een reductie van 99,7% in rekenkosten.
English
We present the "Law of Vision Representation" in multimodal large language
models (MLLMs). It reveals a strong correlation between the combination of
cross-modal alignment, correspondence in vision representation, and MLLM
performance. We quantify the two factors using the cross-modal Alignment and
Correspondence score (AC score). Through extensive experiments involving
thirteen different vision representation settings and evaluations across eight
benchmarks, we find that the AC score is linearly correlated to model
performance. By leveraging this relationship, we are able to identify and train
the optimal vision representation only, which does not require finetuning the
language model every time, resulting in a 99.7% reduction in computational
cost.