ChatPaper.aiChatPaper

비전과 언어 모델은 개념을 공유하는가? 벡터 공간 정렬 연구

Do Vision and Language Models Share Concepts? A Vector Space Alignment Study

February 13, 2023
저자: Jiaang Li, Yova Kementchedjhieva, Constanza Fierro, Anders Søgaard
cs.AI

초록

대규모 사전 학습 언어 모델(LMs)은 "세계에 대한 정신적 모델"을 가지고 있지 않기 때문에(Bender와 Koller, 2020), "발화를 세계와 연결하는 능력이 부족하다"고 평가받습니다(Mitchell과 Krakauer, 2023). 그렇다면 언어 모델의 표현이 시각 모델에 의해 유도된 표현과 관련이 없을 것으로 예상할 수 있습니다. 우리는 네 가지 언어 모델 계열(BERT, GPT-2, OPT, LLaMA-2)과 세 가지 시각 모델 아키텍처(ResNet, SegFormer, MAE)를 대상으로 실증적 평가를 수행했습니다. 실험 결과, 언어 모델의 표현이 분산, 다의성 및 빈도에 따라 시각 모델의 표현과 부분적으로 동형(isomorphic)으로 수렴하는 것을 확인했습니다. 이는 다중 모달 처리와 언어 모델 이해 논쟁(Mitchell과 Krakauer, 2023) 모두에 중요한 함의를 지닙니다.
English
Large-scale pretrained language models (LMs) are said to ``lack the ability to connect utterances to the world'' (Bender and Koller, 2020), because they do not have ``mental models of the world' '(Mitchell and Krakauer, 2023). If so, one would expect LM representations to be unrelated to representations induced by vision models. We present an empirical evaluation across four families of LMs (BERT, GPT-2, OPT and LLaMA-2) and three vision model architectures (ResNet, SegFormer, and MAE). Our experiments show that LMs partially converge towards representations isomorphic to those of vision models, subject to dispersion, polysemy and frequency. This has important implications for both multi-modal processing and the LM understanding debate (Mitchell and Krakauer, 2023).

Summary

AI-Generated Summary

PDF93November 28, 2024