MLLM에서의 시각 표현 법칙Law of Vision Representation in MLLMs
본 논문에서는 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)에서의 "시각 표현 법칙(Law of Vision Representation)"을 제시한다. 이 법칙은 교차모달 정렬(cross-modal alignment), 시각 표현 간의 일관성(correspondence in vision representation), 그리고 MLLM 성능 간의 강력한 상관관계를 밝힌다. 우리는 교차모달 정렬 및 일관성 점수(Alignment and Correspondence score, AC 점수)를 사용하여 이 두 요소를 정량화하였다. 13가지의 다양한 시각 표현 설정과 8개의 벤치마크를 통한 광범위한 실험을 통해, AC 점수가 모델 성능과 선형적으로 상관관계를 가짐을 확인하였다. 이러한 관계를 활용하여, 우리는 언어 모델을 매번 미세 조정(finetuning)할 필요 없이 최적의 시각 표현만을 식별하고 학습할 수 있었으며, 이를 통해 계산 비용을 99.7% 절감할 수 있었다.