Закон представления зрения в мультимодальных языковых моделях (MLLMs)Law of Vision Representation in MLLMs
Мы представляем "Закон представления визуальной информации" в мультимодальных больших языковых моделях (MLLMs). Он демонстрирует сильную корреляцию между комбинацией кросс-модального выравнивания, соответствия в представлении визуальной информации и производительностью MLLM. Мы количественно оцениваем эти два фактора с использованием показателя кросс-модального выравнивания и соответствия (AC score). В ходе обширных экспериментов, включающих тринадцать различных настроек представления визуальной информации и оценку на восьми бенчмарках, мы обнаруживаем, что показатель AC линейно коррелирует с производительностью модели. Используя эту зависимость, мы можем определить и обучить только оптимальное представление визуальной информации, что не требует тонкой настройки языковой модели каждый раз, что приводит к сокращению вычислительных затрат на 99,7%.