Almieyar-Oryx-BloomBench: Um Benchmark Bilíngue Multimodal para Avaliação Cognitivamente Informada de Modelos de Visão e Linguagem

Resumo

Apesar do rápido progresso dos Modelos de Visão-Linguagem (VLMs), a área carece de benchmarks que diagnostiquem rigorosamente suas verdadeiras capacidades de raciocínio e tracem um progresso significativo em direção à inteligência multimodal semelhante à humana. A maioria das avaliações existentes concentra-se em tarefas fragmentadas ou desconectadas, obscurecendo fraquezas cognitivas críticas e oferecendo pouca percepção para melhorias direcionadas. Para preencher essa lacuna, apresentamos o BloomBench, parte da série de benchmarks Almieyar, o primeiro benchmark multimodal bilíngue (inglês-árabe) cognitivamente fundamentado em humanos para VLMs. Fundamentado na Taxonomia de Bloom, o BloomBench avalia sistematicamente seis níveis de cognição (Lembrar, Entender, Aplicar, Analisar, Avaliar, Criar) por meio de tarefas cuidadosamente elaboradas de imagem-pergunta-resposta. Construído com um pipeline semiautomatizado e validado por meio de um protocolo de garantia de qualidade híbrido estratificado, ele garante escalabilidade, inclusão cultural e fidelidade linguística. Aproveitando essa estrutura, realizamos um estudo abrangente dos VLMs de ponta para diagnosticar seus perfis cognitivos. Nossa análise revela uma acentuada assimetria cognitiva: enquanto os modelos de ponta alcançam fortes tetos de desempenho na compreensão semântica, eles enfrentam dificuldades substanciais com a recordação factual e a síntese criativa. Isso demonstra que a atual proficiência multimodal geral mascara limitações mais profundas em camadas cognitivas específicas. Além disso, nosso estudo destaca uma lacuna crítica de desempenho entre o árabe e o inglês, expondo limitações no raciocínio multimodal multilíngue atual. Essas descobertas estabelecem uma base para o desenvolvimento de VLMs mais alinhados cognitivamente e inclusivos. A estrutura do benchmark e o conjunto de dados estão disponíveis em: https://github.com/qcri/Almieyar-Oryx-BloomBench.

English

Despite the rapid progress of Vision-Language Models (VLMs), the field lacks benchmarks that rigorously diagnose their true reasoning abilities and chart meaningful progress toward human-like multimodal intelligence. Most existing evaluations focus on piecemeal or disconnected tasks, obscuring critical cognitive weaknesses and providing little insight for targeted improvement. To address this gap, we introduce BloomBench, part of the Almieyar benchmarking series, the first cognitively human-grounded, bilingual (English-Arabic) multimodal benchmark for VLMs. Grounded in Bloom's Taxonomy, BloomBench systematically evaluates six levels of cognition (Remember, Understand, Apply, Analyze, Evaluate, Create) through carefully designed image-question-answer tasks. Built with a semi-automated pipeline and validated through a stratified hybrid quality assurance protocol, it ensures scalability, cultural inclusivity, and linguistic fidelity. Leveraging this framework, we conduct a comprehensive study of state-of-the-art VLMs to diagnose their cognitive profiles. Our analysis reveals a sharp cognitive asymmetry: while state-of-the-art models achieve strong performance ceilings in semantic understanding, they struggle substantially with factual recall and creative synthesis. This demonstrates that current general multimodal proficiency masks deeper limitations in specific cognitive layers. Furthermore, our study highlights a critical performance gap between Arabic and English, exposing limitations in current cross-lingual multimodal reasoning. These findings establish a foundation for developing more cognitively aligned and inclusive VLMs. The benchmark framework and dataset is available at: https://github.com/qcri/Almieyar-Oryx-BloomBench.