Базовое использование категорий в моделях "визуальный язык"
Basic Category Usage in Vision Language Models
March 16, 2025
Авторы: Hunter Sawyer, Jesse Roberts, Kyle Moore
cs.AI
Аннотация
В области психологии давно признан базовый уровень категоризации, который люди используют при обозначении визуальных стимулов, термин, введенный Рош в 1976 году. Было установлено, что этот уровень категоризации используется наиболее часто, обладает более высокой информационной плотностью и способствует выполнению задач визуального языка с использованием прайминга у людей. В данной работе мы исследуем базовый уровень категоризации в двух недавно выпущенных открытых моделях визуального языка (VLMs). В статье показано, что Llama 3.2 Vision Instruct (11B) и Molmo 7B-D предпочитают базовый уровень категоризации, согласующийся с поведением человека. Более того, предпочтения моделей соответствуют тонким аспектам человеческого поведения, таким как эффекты биологического и небиологического базового уровня, а также хорошо известный сдвиг базового уровня у экспертов, что дополнительно свидетельствует о том, что VLMs приобретают когнитивные поведенческие паттерны категоризации из человеческих данных, на которых они обучаются.
English
The field of psychology has long recognized a basic level of categorization
that humans use when labeling visual stimuli, a term coined by Rosch in 1976.
This level of categorization has been found to be used most frequently, to have
higher information density, and to aid in visual language tasks with priming in
humans. Here, we investigate basic level categorization in two recently
released, open-source vision-language models (VLMs). This paper demonstrates
that Llama 3.2 Vision Instruct (11B) and Molmo 7B-D both prefer basic level
categorization consistent with human behavior. Moreover, the models'
preferences are consistent with nuanced human behaviors like the biological
versus non-biological basic level effects and the well established expert basic
level shift, further suggesting that VLMs acquire cognitive categorization
behaviors from the human data on which they are trained.Summary
AI-Generated Summary