Базовое использование категорий в моделях "визуальный язык"

Аннотация

В области психологии давно признан базовый уровень категоризации, который люди используют при обозначении визуальных стимулов, термин, введенный Рош в 1976 году. Было установлено, что этот уровень категоризации используется наиболее часто, обладает более высокой информационной плотностью и способствует выполнению задач визуального языка с использованием прайминга у людей. В данной работе мы исследуем базовый уровень категоризации в двух недавно выпущенных открытых моделях визуального языка (VLMs). В статье показано, что Llama 3.2 Vision Instruct (11B) и Molmo 7B-D предпочитают базовый уровень категоризации, согласующийся с поведением человека. Более того, предпочтения моделей соответствуют тонким аспектам человеческого поведения, таким как эффекты биологического и небиологического базового уровня, а также хорошо известный сдвиг базового уровня у экспертов, что дополнительно свидетельствует о том, что VLMs приобретают когнитивные поведенческие паттерны категоризации из человеческих данных, на которых они обучаются.

English

The field of psychology has long recognized a basic level of categorization that humans use when labeling visual stimuli, a term coined by Rosch in 1976. This level of categorization has been found to be used most frequently, to have higher information density, and to aid in visual language tasks with priming in humans. Here, we investigate basic level categorization in two recently released, open-source vision-language models (VLMs). This paper demonstrates that Llama 3.2 Vision Instruct (11B) and Molmo 7B-D both prefer basic level categorization consistent with human behavior. Moreover, the models' preferences are consistent with nuanced human behaviors like the biological versus non-biological basic level effects and the well established expert basic level shift, further suggesting that VLMs acquire cognitive categorization behaviors from the human data on which they are trained.

Базовое использование категорий в моделях "визуальный язык"

Basic Category Usage in Vision Language Models

Аннотация

Support