MLLMs 中的視覺表示法定律Law of Vision Representation in MLLMs
我們提出了在多模態大型語言模型(MLLMs)中的「視覺表徵法則」。它揭示了跨模態對齊的組合、視覺表徵中的對應以及MLLM性能之間的強烈相關性。我們使用跨模態對齊和對應分數(AC分數)來量化這兩個因素。通過涉及十三種不同視覺表徵設置的廣泛實驗以及在八個基準測試中的評估,我們發現AC分數與模型性能呈線性相關。通過利用這種關係,我們能夠僅識別並訓練最佳的視覺表徵,而無需每次微調語言模型,從而使計算成本減少了99.7%。