多模态大语言模型中的视觉表征法则Law of Vision Representation in MLLMs
我们提出了多模态大语言模型(MLLMs)中的“视觉表征定律”。该定律揭示了跨模态对齐、视觉表征一致性及MLLM性能三者之间的强相关性。我们采用跨模态对齐与一致性评分(AC评分)量化了这两个因素。通过涵盖十三种不同视觉表征设置及跨越八个基准的广泛实验,我们发现AC评分与模型性能呈线性相关。利用这一关系,我们能够仅识别并训练最优视觉表征,而无需每次微调语言模型,从而实现了计算成本99.7%的显著降低。