Almieyar-Oryx-BloomBench: Ein zweisprachiger multimodaler Benchmark zur kognitiv fundierten Evaluierung von Vision-Language-Modellen

Zusammenfassung

Trotz der rasanten Fortschritte bei visuellen Sprachmodellen (VLMs) fehlen dem Bereich Benchmarks, die ihre tatsächlichen Denkfähigkeiten streng diagnostizieren und sinnvolle Fortschritte in Richtung einer menschenähnlichen multimodalen Intelligenz aufzeigen. Die meisten vorhandenen Bewertungen konzentrieren sich auf fragmentierte oder zusammenhanglose Aufgaben, verdecken kritische kognitive Schwächen und bieten wenig Einblick für gezielte Verbesserungen. Um diese Lücke zu schließen, stellen wir BloomBench vor, Teil der Almieyar-Benchmark-Reihe, den ersten kognitiv menschlich fundierten, zweisprachigen (Englisch-Arabisch) multimodalen Benchmark für VLMs. Basierend auf Blooms Taxonomie bewertet BloomBench systematisch sechs Kognitionsebenen (Erinnern, Verstehen, Anwenden, Analysieren, Bewerten, Erschaffen) durch sorgfältig entworfene Bild-Frage-Antwort-Aufgaben. Aufgebaut mit einer halbautomatischen Pipeline und validiert durch ein geschichtetes hybrides Qualitätssicherungsprotokoll, gewährleistet es Skalierbarkeit, kulturelle Inklusivität und sprachliche Genauigkeit. Unter Nutzung dieses Rahmens führen wir eine umfassende Studie aktueller VLMs durch, um deren kognitive Profile zu diagnostizieren. Unsere Analyse zeigt eine scharfe kognitive Asymmetrie: Während hochmoderne Modelle starke Leistungsobergrenzen im semantischen Verständnis erreichen, haben sie erhebliche Schwierigkeiten mit dem Faktenabruf und der kreativen Synthese. Dies zeigt, dass die derzeitige allgemeine multimodale Leistungsfähigkeit tiefere Einschränkungen in spezifischen kognitiven Schichten verbirgt. Darüber hinaus hebt unsere Studie eine kritische Leistungslücke zwischen Arabisch und Englisch hervor, die Einschränkungen im aktuellen sprachübergreifenden multimodalen Denken offenlegt. Diese Erkenntnisse schaffen eine Grundlage für die Entwicklung kognitiv besser ausgerichteter und inklusiverer VLMs. Der Benchmark-Rahmen und der Datensatz sind verfügbar unter: https://github.com/qcri/Almieyar-Oryx-BloomBench.

English

Despite the rapid progress of Vision-Language Models (VLMs), the field lacks benchmarks that rigorously diagnose their true reasoning abilities and chart meaningful progress toward human-like multimodal intelligence. Most existing evaluations focus on piecemeal or disconnected tasks, obscuring critical cognitive weaknesses and providing little insight for targeted improvement. To address this gap, we introduce BloomBench, part of the Almieyar benchmarking series, the first cognitively human-grounded, bilingual (English-Arabic) multimodal benchmark for VLMs. Grounded in Bloom's Taxonomy, BloomBench systematically evaluates six levels of cognition (Remember, Understand, Apply, Analyze, Evaluate, Create) through carefully designed image-question-answer tasks. Built with a semi-automated pipeline and validated through a stratified hybrid quality assurance protocol, it ensures scalability, cultural inclusivity, and linguistic fidelity. Leveraging this framework, we conduct a comprehensive study of state-of-the-art VLMs to diagnose their cognitive profiles. Our analysis reveals a sharp cognitive asymmetry: while state-of-the-art models achieve strong performance ceilings in semantic understanding, they struggle substantially with factual recall and creative synthesis. This demonstrates that current general multimodal proficiency masks deeper limitations in specific cognitive layers. Furthermore, our study highlights a critical performance gap between Arabic and English, exposing limitations in current cross-lingual multimodal reasoning. These findings establish a foundation for developing more cognitively aligned and inclusive VLMs. The benchmark framework and dataset is available at: https://github.com/qcri/Almieyar-Oryx-BloomBench.