Wet van Visuele Representatie in MLLM'sLaw of Vision Representation in MLLMs
Wij presenteren de "Wet van Visuele Representatie" in multimodale grote taalmodellen (MLLM's). Deze onthult een sterke correlatie tussen de combinatie van cross-modale alignering, correspondentie in visuele representatie en MLLM-prestaties. Wij kwantificeren de twee factoren met behulp van de cross-modale Alignerings- en Correspondentiescore (AC-score). Uit uitgebreide experimenten met dertien verschillende visuele representatie-instellingen en evaluaties over acht benchmarks blijkt dat de AC-score lineair gecorreleerd is aan modelprestaties. Door deze relatie te benutten, kunnen wij de optimale visuele representatie identificeren en trainen zonder telkens het taalmodel te moeten finetunen, wat resulteert in een reductie van 99,7% in rekenkosten.