Almieyar-Oryx-BloomBench : un benchmark multimodal bilingue pour l'évaluation cognitivement informée des modèles vision-langage

Résumé

Malgré les progrès rapides des Modèles Vision-Langage (VLM), le domaine manque de références capables de diagnostiquer rigoureusement leurs véritables capacités de raisonnement et de tracer des progrès significatifs vers une intelligence multimodale de type humain. La plupart des évaluations existantes se concentrent sur des tâches fragmentaires ou déconnectées, occultant des lacunes cognitives critiques et offrant peu d'indications pour des améliorations ciblées. Pour combler cette lacune, nous présentons BloomBench, faisant partie de la série de références Almieyar, la première référence multimodale bilingue (anglais-arabe) ancrée cognitivement dans l'humain pour les VLM. Fondée sur la Taxonomie de Bloom, BloomBench évalue systématiquement six niveaux de cognition (Se souvenir, Comprendre, Appliquer, Analyser, Évaluer, Créer) à travers des tâches soigneusement conçues d'image-question-réponse. Construite via un pipeline semi-automatisé et validée par un protocole d'assurance qualité hybride stratifié, elle garantit l'évolutivité, l'inclusivité culturelle et la fidélité linguistique. En exploitant ce cadre, nous menons une étude approfondie des VLM de pointe pour diagnostiquer leurs profils cognitifs. Notre analyse révèle une asymétrie cognitive marquée : alors que les modèles de pointe atteignent des plafonds de performance élevés en compréhension sémantique, ils éprouvent des difficultés substantielles en rappel factuel et en synthèse créative. Cela démontre que la compétence multimodale générale actuelle masque des limites plus profondes dans des couches cognitives spécifiques. De plus, notre étude met en évidence un écart de performance critique entre l'arabe et l'anglais, exposant les limites du raisonnement multimodal cross-lingue actuel. Ces résultats établissent une base pour développer des VLM plus alignés cognitivement et inclusifs. Le cadre de référence et l'ensemble de données sont disponibles à l'adresse : https://github.com/qcri/Almieyar-Oryx-BloomBench.

English

Despite the rapid progress of Vision-Language Models (VLMs), the field lacks benchmarks that rigorously diagnose their true reasoning abilities and chart meaningful progress toward human-like multimodal intelligence. Most existing evaluations focus on piecemeal or disconnected tasks, obscuring critical cognitive weaknesses and providing little insight for targeted improvement. To address this gap, we introduce BloomBench, part of the Almieyar benchmarking series, the first cognitively human-grounded, bilingual (English-Arabic) multimodal benchmark for VLMs. Grounded in Bloom's Taxonomy, BloomBench systematically evaluates six levels of cognition (Remember, Understand, Apply, Analyze, Evaluate, Create) through carefully designed image-question-answer tasks. Built with a semi-automated pipeline and validated through a stratified hybrid quality assurance protocol, it ensures scalability, cultural inclusivity, and linguistic fidelity. Leveraging this framework, we conduct a comprehensive study of state-of-the-art VLMs to diagnose their cognitive profiles. Our analysis reveals a sharp cognitive asymmetry: while state-of-the-art models achieve strong performance ceilings in semantic understanding, they struggle substantially with factual recall and creative synthesis. This demonstrates that current general multimodal proficiency masks deeper limitations in specific cognitive layers. Furthermore, our study highlights a critical performance gap between Arabic and English, exposing limitations in current cross-lingual multimodal reasoning. These findings establish a foundation for developing more cognitively aligned and inclusive VLMs. The benchmark framework and dataset is available at: https://github.com/qcri/Almieyar-Oryx-BloomBench.