비전 언어 모델에서의 기본 범주 사용
Basic Category Usage in Vision Language Models
March 16, 2025
저자: Hunter Sawyer, Jesse Roberts, Kyle Moore
cs.AI
초록
심리학 분야에서는 인간이 시각적 자극을 분류할 때 사용하는 기본적인 범주화 수준을 오랫동안 인식해 왔으며, 이는 1976년 로쉐(Rosch)가 처음 명명한 개념입니다. 이 기본 범주화 수준은 가장 빈번하게 사용되고, 더 높은 정보 밀도를 가지며, 프라이밍(priming)을 통해 인간의 시각 언어 작업을 돕는 것으로 밝혀졌습니다. 본 연구에서는 최근 공개된 두 가지 오픈소스 시각-언어 모델(VLMs)에서 이러한 기본 범주화 수준을 조사합니다. 이 논문은 Llama 3.2 Vision Instruct (11B)와 Molmo 7B-D가 모두 인간의 행동과 일치하는 기본 범주화를 선호한다는 것을 보여줍니다. 더 나아가, 이 모델들의 선호도는 생물학적 대 비생물학적 기본 범주 효과나 잘 알려진 전문가 기본 범주 전환과 같은 미묘한 인간 행동과도 일치하며, 이는 VLMs가 학습된 인간 데이터로부터 인지적 범주화 행동을 습득한다는 것을 추가적으로 시사합니다.
English
The field of psychology has long recognized a basic level of categorization
that humans use when labeling visual stimuli, a term coined by Rosch in 1976.
This level of categorization has been found to be used most frequently, to have
higher information density, and to aid in visual language tasks with priming in
humans. Here, we investigate basic level categorization in two recently
released, open-source vision-language models (VLMs). This paper demonstrates
that Llama 3.2 Vision Instruct (11B) and Molmo 7B-D both prefer basic level
categorization consistent with human behavior. Moreover, the models'
preferences are consistent with nuanced human behaviors like the biological
versus non-biological basic level effects and the well established expert basic
level shift, further suggesting that VLMs acquire cognitive categorization
behaviors from the human data on which they are trained.Summary
AI-Generated Summary