Almieyar-Oryx-BloomBench: Un punto de referencia bilingüe multimodal para la evaluación informada cognitivamente de modelos de visión y lenguaje

Resumen

A pesar del rápido progreso de los Modelos de Lenguaje y Visión (VLMs), el ámbito carece de puntos de referencia que diagnostiquen rigurosamente sus verdaderas capacidades de razonamiento y tracen un progreso significativo hacia una inteligencia multimodal similar a la humana. La mayoría de las evaluaciones existentes se centran en tareas fragmentadas o inconexas, ocultando debilidades cognitivas críticas y proporcionando poca información para una mejora dirigida. Para abordar esta brecha, presentamos BloomBench, parte de la serie de puntos de referencia Almieyar, el primer punto de referencia multimodal cognitivamente fundamentado en humanos y bilingüe (inglés-árabe) para VLMs. Basado en la Taxonomía de Bloom, BloomBench evalúa sistemáticamente seis niveles de cognición (Recordar, Comprender, Aplicar, Analizar, Evaluar, Crear) a través de tareas cuidadosamente diseñadas de imagen-pregunta-respuesta. Construido con un proceso semiautomatizado y validado mediante un protocolo de garantía de calidad híbrido estratificado, asegura escalabilidad, inclusividad cultural y fidelidad lingüística. Aprovechando este marco, realizamos un estudio exhaustivo de VLMs de última generación para diagnosticar sus perfiles cognitivos. Nuestro análisis revela una marcada asimetría cognitiva: mientras que los modelos de última generación alcanzan techos de rendimiento sólidos en comprensión semántica, tienen dificultades sustanciales con el recuerdo factual y la síntesis creativa. Esto demuestra que la competencia multimodal general actual enmascara limitaciones más profundas en capas cognitivas específicas. Además, nuestro estudio destaca una brecha de rendimiento crítica entre el árabe y el inglés, exponiendo limitaciones en el razonamiento multimodal interlingüe actual. Estos hallazgos establecen una base para desarrollar VLMs más alineados cognitivamente e inclusivos. El marco de referencia y el conjunto de datos están disponibles en: https://github.com/qcri/Almieyar-Oryx-BloomBench.

English

Despite the rapid progress of Vision-Language Models (VLMs), the field lacks benchmarks that rigorously diagnose their true reasoning abilities and chart meaningful progress toward human-like multimodal intelligence. Most existing evaluations focus on piecemeal or disconnected tasks, obscuring critical cognitive weaknesses and providing little insight for targeted improvement. To address this gap, we introduce BloomBench, part of the Almieyar benchmarking series, the first cognitively human-grounded, bilingual (English-Arabic) multimodal benchmark for VLMs. Grounded in Bloom's Taxonomy, BloomBench systematically evaluates six levels of cognition (Remember, Understand, Apply, Analyze, Evaluate, Create) through carefully designed image-question-answer tasks. Built with a semi-automated pipeline and validated through a stratified hybrid quality assurance protocol, it ensures scalability, cultural inclusivity, and linguistic fidelity. Leveraging this framework, we conduct a comprehensive study of state-of-the-art VLMs to diagnose their cognitive profiles. Our analysis reveals a sharp cognitive asymmetry: while state-of-the-art models achieve strong performance ceilings in semantic understanding, they struggle substantially with factual recall and creative synthesis. This demonstrates that current general multimodal proficiency masks deeper limitations in specific cognitive layers. Furthermore, our study highlights a critical performance gap between Arabic and English, exposing limitations in current cross-lingual multimodal reasoning. These findings establish a foundation for developing more cognitively aligned and inclusive VLMs. The benchmark framework and dataset is available at: https://github.com/qcri/Almieyar-Oryx-BloomBench.