Закон представления зрения в мультимодальных языковых моделях (MLLMs)
Law of Vision Representation in MLLMs
August 29, 2024
Авторы: Shijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu
cs.AI
Аннотация
Мы представляем "Закон представления визуальной информации" в мультимодальных больших языковых моделях (MLLMs). Он демонстрирует сильную корреляцию между комбинацией кросс-модального выравнивания, соответствия в представлении визуальной информации и производительностью MLLM. Мы количественно оцениваем эти два фактора с использованием показателя кросс-модального выравнивания и соответствия (AC score). В ходе обширных экспериментов, включающих тринадцать различных настроек представления визуальной информации и оценку на восьми бенчмарках, мы обнаруживаем, что показатель AC линейно коррелирует с производительностью модели. Используя эту зависимость, мы можем определить и обучить только оптимальное представление визуальной информации, что не требует тонкой настройки языковой модели каждый раз, что приводит к сокращению вычислительных затрат на 99,7%.
English
We present the "Law of Vision Representation" in multimodal large language
models (MLLMs). It reveals a strong correlation between the combination of
cross-modal alignment, correspondence in vision representation, and MLLM
performance. We quantify the two factors using the cross-modal Alignment and
Correspondence score (AC score). Through extensive experiments involving
thirteen different vision representation settings and evaluations across eight
benchmarks, we find that the AC score is linearly correlated to model
performance. By leveraging this relationship, we are able to identify and train
the optimal vision representation only, which does not require finetuning the
language model every time, resulting in a 99.7% reduction in computational
cost.