CAMEL-Bench: Um Benchmark Abrangente de Modelos de Linguagem para o Árabe
CAMEL-Bench: A Comprehensive Arabic LMM Benchmark
October 24, 2024
Autores: Sara Ghaboura, Ahmed Heakl, Omkar Thawakar, Ali Alharthi, Ines Riahi, Abduljalil Saif, Jorma Laaksonen, Fahad S. Khan, Salman Khan, Rao M. Anwer
cs.AI
Resumo
Os últimos anos testemunharam um interesse significativo no desenvolvimento de grandes modelos multimodais (LMMs) capazes de realizar diversas tarefas de raciocínio visual e compreensão. Isso levou à introdução de múltiplos benchmarks de avaliação de LMMs para avaliar LMMs em diferentes tarefas. No entanto, a maioria dos benchmarks de avaliação de LMM existentes são predominantemente centrados no inglês. Neste trabalho, desenvolvemos um benchmark abrangente de avaliação de LMM para a língua árabe para representar uma grande população de mais de 400 milhões de falantes. O benchmark proposto, denominado CAMEL-Bench, compreende oito domínios diversos e 38 subdomínios, incluindo compreensão multi-imagem, percepção visual complexa, compreensão de documentos manuscritos, compreensão de vídeo, imagens médicas, doenças de plantas e compreensão do uso da terra com base em sensoriamento remoto para avaliar a generalização de cenários amplos. Nosso CAMEL-Bench é composto por cerca de 29.036 perguntas filtradas de um grande conjunto de amostras, cuja qualidade é verificada manualmente por falantes nativos para garantir uma avaliação confiável do modelo. Realizamos avaliações tanto de modelos fechados, incluindo a série GPT-4, quanto de LMMs de código aberto. Nossa análise revela a necessidade de melhorias substanciais, especialmente entre os melhores modelos de código aberto, com até mesmo o GPT-4o de código fechado alcançando uma pontuação geral de 62%. Nosso benchmark e scripts de avaliação são de código aberto.
English
Recent years have witnessed a significant interest in developing large
multimodal models (LMMs) capable of performing various visual reasoning and
understanding tasks. This has led to the introduction of multiple LMM
benchmarks to evaluate LMMs on different tasks. However, most existing LMM
evaluation benchmarks are predominantly English-centric. In this work, we
develop a comprehensive LMM evaluation benchmark for the Arabic language to
represent a large population of over 400 million speakers. The proposed
benchmark, named CAMEL-Bench, comprises eight diverse domains and 38
sub-domains including, multi-image understanding, complex visual perception,
handwritten document understanding, video understanding, medical imaging, plant
diseases, and remote sensing-based land use understanding to evaluate broad
scenario generalizability. Our CAMEL-Bench comprises around 29,036 questions
that are filtered from a larger pool of samples, where the quality is manually
verified by native speakers to ensure reliable model assessment. We conduct
evaluations of both closed-source, including GPT-4 series, and open-source
LMMs. Our analysis reveals the need for substantial improvement, especially
among the best open-source models, with even the closed-source GPT-4o achieving
an overall score of 62%. Our benchmark and evaluation scripts are open-sourced.Summary
AI-Generated Summary