Ley de Representación Visual en MLLMs
Law of Vision Representation in MLLMs
August 29, 2024
Autores: Shijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu
cs.AI
Resumen
Presentamos la "Ley de Representación Visual" en modelos de lenguaje multimodal de gran escala (MLLMs). Esta revela una fuerte correlación entre la combinación de alineación multimodal, correspondencia en la representación visual y el rendimiento de los MLLMs. Cuantificamos estos dos factores utilizando la puntuación de Alineación y Correspondencia multimodal (puntuación AC). A través de experimentos exhaustivos que involucran trece configuraciones diferentes de representación visual y evaluaciones en ocho benchmarks, encontramos que la puntuación AC está linealmente correlacionada con el rendimiento del modelo. Al aprovechar esta relación, logramos identificar y entrenar únicamente la representación visual óptima, lo que no requiere ajustar el modelo de lenguaje cada vez, resultando en una reducción del 99.7% en el costo computacional.
English
We present the "Law of Vision Representation" in multimodal large language
models (MLLMs). It reveals a strong correlation between the combination of
cross-modal alignment, correspondence in vision representation, and MLLM
performance. We quantify the two factors using the cross-modal Alignment and
Correspondence score (AC score). Through extensive experiments involving
thirteen different vision representation settings and evaluations across eight
benchmarks, we find that the AC score is linearly correlated to model
performance. By leveraging this relationship, we are able to identify and train
the optimal vision representation only, which does not require finetuning the
language model every time, resulting in a 99.7% reduction in computational
cost.