Ley de Representación Visual en MLLMsLaw of Vision Representation in MLLMs
Presentamos la "Ley de Representación Visual" en modelos de lenguaje multimodal de gran escala (MLLMs). Esta revela una fuerte correlación entre la combinación de alineación multimodal, correspondencia en la representación visual y el rendimiento de los MLLMs. Cuantificamos estos dos factores utilizando la puntuación de Alineación y Correspondencia multimodal (puntuación AC). A través de experimentos exhaustivos que involucran trece configuraciones diferentes de representación visual y evaluaciones en ocho benchmarks, encontramos que la puntuación AC está linealmente correlacionada con el rendimiento del modelo. Al aprovechar esta relación, logramos identificar y entrenar únicamente la representación visual óptima, lo que no requiere ajustar el modelo de lenguaje cada vez, resultando en una reducción del 99.7% en el costo computacional.