Lei da Representação Visual em MLLMsLaw of Vision Representation in MLLMs
Apresentamos a "Lei da Representação Visual" em modelos de linguagem grandes multimodais (MLLMs). Esta lei revela uma forte correlação entre a combinação do alinhamento cross-modal, a correspondência na representação visual e o desempenho dos MLLMs. Quantificamos estes dois fatores através da pontuação de Alinhamento e Correspondência cross-modal (pontuação AC). Por meio de extensos experimentos envolvendo treze configurações diferentes de representação visual e avaliações em oito benchmarks, descobrimos que a pontuação AC está linearmente correlacionada com o desempenho do modelo. Aproveitando esta relação, conseguimos identificar e treinar apenas a representação visual ótima, o que não requer o ajuste fino do modelo de linguagem a cada vez, resultando numa redução de 99,7% no custo computacional.