Разумный взгляд: эталон визуальной абстракции, трансформации и композиции для мультимодальных языковых моделей

Аннотация

Мультимодальные большие языковые модели (МБЯМ) демонстрируют впечатляющий прогресс в решении стандартных задач по обработке визуальной информации и языка, однако их способности к визуальному познанию и пространственно-зрительным рассуждениям остаются малоизученными. Мы представляем "Мысленный взор" — тестовый набор с множественным выбором, состоящий из восьми заданий на визуально-когнитивные способности, вдохновленных классическими тестами на интеллект и организованных по новой таксономии "А-О-П": Абстракция, Отношения и Преобразование. Задания исследуют ключевые процессы подвижного интеллекта, такие как индукция паттернов, установление аналогий и мысленное преобразование. Мы оцениваем разнообразный набор проприетарных и открытых МБЯМ и сравниваем их результаты с показателями людей-участников. Люди достигают точности в 80%, в то время как лучшие модели МБЯМ показывают результат ниже 50%. Анализ ошибок выявляет недостатки в: (i) распределении зрительного внимания, (ii) внутреннем перцептивном манипулировании и (iii) слабой абстракции базовых визуальных концептов. Наши результаты свидетельствуют, что современные МБЯМ обладают ограниченными способностями к пространственно-зрительным рассуждениям по сравнению с человеком, что подчеркивает необходимость разработки более обоснованных с когнитивной точки зрения оценочных методик.

English

Multimodal large language models (MLLMs) have achieved impressive progress on vision language benchmarks, yet their capacity for visual cognitive and visuospatial reasoning remains less understood. We introduce "Mind's Eye", a multiple-choice benchmark of eight visuo-cognitive tasks inspired by classic human intelligence tests and organized under a novel "A-R-T" taxonomy: Abstraction, Relation, and Transformation. The tasks probe core processes of fluid intelligence such as pattern induction, analogical relation mapping, and mental transformation. We evaluate a diverse suite of closed-source and open-source MLLMs and compare their performance with human participants. Humans achieve 80% accuracy, while top performing MLLMs remain below 50%. Error analysis reveals failures in: (i) visual attention allocation, (ii) internal perceptual manipulation, and (iii) weak abstraction of underlying visual concepts. Our findings suggest that current MLLMs exhibit limited visuospatial reasoning capabilities, when compared with human participants, highlighting the need for more cognitively grounded evaluation frameworks.

Разумный взгляд: эталон визуальной абстракции, трансформации и композиции для мультимодальных языковых моделей

Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

Аннотация

Support