ChatPaper.aiChatPaper

Базовое использование категорий в моделях "визуальный язык"

Basic Category Usage in Vision Language Models

March 16, 2025
Авторы: Hunter Sawyer, Jesse Roberts, Kyle Moore
cs.AI

Аннотация

В области психологии давно признан базовый уровень категоризации, который люди используют при обозначении визуальных стимулов, термин, введенный Рош в 1976 году. Было установлено, что этот уровень категоризации используется наиболее часто, обладает более высокой информационной плотностью и способствует выполнению задач визуального языка с использованием прайминга у людей. В данной работе мы исследуем базовый уровень категоризации в двух недавно выпущенных открытых моделях визуального языка (VLMs). В статье показано, что Llama 3.2 Vision Instruct (11B) и Molmo 7B-D предпочитают базовый уровень категоризации, согласующийся с поведением человека. Более того, предпочтения моделей соответствуют тонким аспектам человеческого поведения, таким как эффекты биологического и небиологического базового уровня, а также хорошо известный сдвиг базового уровня у экспертов, что дополнительно свидетельствует о том, что VLMs приобретают когнитивные поведенческие паттерны категоризации из человеческих данных, на которых они обучаются.
English
The field of psychology has long recognized a basic level of categorization that humans use when labeling visual stimuli, a term coined by Rosch in 1976. This level of categorization has been found to be used most frequently, to have higher information density, and to aid in visual language tasks with priming in humans. Here, we investigate basic level categorization in two recently released, open-source vision-language models (VLMs). This paper demonstrates that Llama 3.2 Vision Instruct (11B) and Molmo 7B-D both prefer basic level categorization consistent with human behavior. Moreover, the models' preferences are consistent with nuanced human behaviors like the biological versus non-biological basic level effects and the well established expert basic level shift, further suggesting that VLMs acquire cognitive categorization behaviors from the human data on which they are trained.

Summary

AI-Generated Summary

PDF32March 18, 2025