Gesetz der visuellen Repräsentation in MLLMsLaw of Vision Representation in MLLMs
Wir präsentieren das „Gesetz der visuellen Repräsentation“ in multimodalen großen Sprachmodellen (MLLMs). Es zeigt eine starke Korrelation zwischen der Kombination von cross-modaler Ausrichtung, Korrespondenz in der visuellen Repräsentation und der Leistung von MLLMs. Wir quantifizieren diese beiden Faktoren mithilfe des cross-modalen Ausrichtungs- und Korrespondenz-Scores (AC-Score). Durch umfangreiche Experimente mit dreizehn verschiedenen Einstellungen der visuellen Repräsentation und Bewertungen über acht Benchmarks hinweg stellen wir fest, dass der AC-Score linear mit der Modellleistung korreliert. Indem wir diese Beziehung nutzen, können wir die optimale visuelle Repräsentation identifizieren und trainieren, ohne jedes Mal das Sprachmodell feinabstimmen zu müssen, was zu einer Reduzierung der Rechenkosten um 99,7 % führt.