Almieyar-Oryx-BloomBench: двуязычный мультимодальный бенчмарк для когнитивно обоснованной оценки визуально-языковых моделей

Аннотация

Несмотря на стремительный прогресс визуально-языковых моделей (VLM), в этой области по-прежнему не хватает бенчмарков, позволяющих строго диагностировать их истинные способности к рассуждению и отслеживать значимый прогресс на пути к человекоподобному мультимодальному интеллекту. Большинство существующих оценок фокусируются на разрозненных или слабо связанных задачах, что скрывает критические когнитивные недостатки и даёт мало ориентиров для целенаправленного улучшения. Для восполнения этого пробела мы представляем BloomBench, часть серии бенчмарков Almieyar, — первый когнитивно обоснованный на человеческом познании двуязычный (английский-арабский) мультимодальный бенчмарк для VLM. Опираясь на таксономию Блума, BloomBench систематически оценивает шесть уровней познания (запоминание, понимание, применение, анализ, оценка, создание) с помощью тщательно разработанных заданий типа «изображение — вопрос — ответ». Созданный с использованием полуавтоматизированного конвейера и валидированный посредством стратифицированного гибридного протокола обеспечения качества, он обеспечивает масштабируемость, культурную инклюзивность и лингвистическую точность. Используя эту структуру, мы проводим всестороннее исследование современных VLM для диагностики их когнитивных профилей. Наш анализ выявляет резкую когнитивную асимметрию: хотя передовые модели демонстрируют высокие потолки производительности в области семантического понимания, они существенно затрудняются с фактическим воспроизведением (запоминанием) и творческим синтезом. Это показывает, что текущая общая мультимодальная компетентность маскирует более глубокие ограничения в отдельных когнитивных слоях. Кроме того, наше исследование подчеркивает критический разрыв в производительности между арабским и английским языками, обнажая ограничения современного кросс-лингвистического мультимодального рассуждения. Эти результаты закладывают основу для разработки более когнитивно согласованных и инклюзивных VLM. Структура бенчмарка и набор данных доступны по адресу: https://github.com/qcri/Almieyar-Oryx-BloomBench.

English

Despite the rapid progress of Vision-Language Models (VLMs), the field lacks benchmarks that rigorously diagnose their true reasoning abilities and chart meaningful progress toward human-like multimodal intelligence. Most existing evaluations focus on piecemeal or disconnected tasks, obscuring critical cognitive weaknesses and providing little insight for targeted improvement. To address this gap, we introduce BloomBench, part of the Almieyar benchmarking series, the first cognitively human-grounded, bilingual (English-Arabic) multimodal benchmark for VLMs. Grounded in Bloom's Taxonomy, BloomBench systematically evaluates six levels of cognition (Remember, Understand, Apply, Analyze, Evaluate, Create) through carefully designed image-question-answer tasks. Built with a semi-automated pipeline and validated through a stratified hybrid quality assurance protocol, it ensures scalability, cultural inclusivity, and linguistic fidelity. Leveraging this framework, we conduct a comprehensive study of state-of-the-art VLMs to diagnose their cognitive profiles. Our analysis reveals a sharp cognitive asymmetry: while state-of-the-art models achieve strong performance ceilings in semantic understanding, they struggle substantially with factual recall and creative synthesis. This demonstrates that current general multimodal proficiency masks deeper limitations in specific cognitive layers. Furthermore, our study highlights a critical performance gap between Arabic and English, exposing limitations in current cross-lingual multimodal reasoning. These findings establish a foundation for developing more cognitively aligned and inclusive VLMs. The benchmark framework and dataset is available at: https://github.com/qcri/Almieyar-Oryx-BloomBench.