CAMEL-Bench: Обширный бенчмарк для арабского языка на основе линейных моделей (Arabic LMM).
CAMEL-Bench: A Comprehensive Arabic LMM Benchmark
October 24, 2024
Авторы: Sara Ghaboura, Ahmed Heakl, Omkar Thawakar, Ali Alharthi, Ines Riahi, Abduljalil Saif, Jorma Laaksonen, Fahad S. Khan, Salman Khan, Rao M. Anwer
cs.AI
Аннотация
В последние годы наблюдается значительный интерес к разработке крупных мультимодальных моделей (LMM), способных выполнять различные задачи визуального рассуждения и понимания. Это привело к появлению нескольких бенчмарков LMM для оценки их производительности на различных задачах. Однако большинство существующих бенчмарков оценки LMM в основном ориентированы на английский язык. В данной работе мы разрабатываем комплексный бенчмарк оценки LMM для арабского языка, чтобы представить большое население более 400 миллионов говорящих. Предложенный бенчмарк, названный CAMEL-Bench, включает в себя восемь разнообразных областей и 38 подобластей, включая мультиизображения, сложное визуальное восприятие, понимание рукописных документов, видеоанализ, медицинское изображение, болезни растений и понимание использования земли на основе дистанционного зондирования для оценки широкой обобщаемости сценария. Наш CAMEL-Bench включает около 29 036 вопросов, отобранных из более крупной выборки, качество которых проверено вручную носителями языка для обеспечения надежной оценки модели. Мы проводим оценку как закрытых источников, включая серию GPT-4, так и открытых мультимодальных моделей. Наш анализ показывает необходимость существенных улучшений, особенно среди лучших моделей с открытым исходным кодом, при этом даже закрытая модель GPT-4o достигает общего рейтинга 62%. Наш бенчмарк и скрипты оценки доступны в открытом доступе.
English
Recent years have witnessed a significant interest in developing large
multimodal models (LMMs) capable of performing various visual reasoning and
understanding tasks. This has led to the introduction of multiple LMM
benchmarks to evaluate LMMs on different tasks. However, most existing LMM
evaluation benchmarks are predominantly English-centric. In this work, we
develop a comprehensive LMM evaluation benchmark for the Arabic language to
represent a large population of over 400 million speakers. The proposed
benchmark, named CAMEL-Bench, comprises eight diverse domains and 38
sub-domains including, multi-image understanding, complex visual perception,
handwritten document understanding, video understanding, medical imaging, plant
diseases, and remote sensing-based land use understanding to evaluate broad
scenario generalizability. Our CAMEL-Bench comprises around 29,036 questions
that are filtered from a larger pool of samples, where the quality is manually
verified by native speakers to ensure reliable model assessment. We conduct
evaluations of both closed-source, including GPT-4 series, and open-source
LMMs. Our analysis reveals the need for substantial improvement, especially
among the best open-source models, with even the closed-source GPT-4o achieving
an overall score of 62%. Our benchmark and evaluation scripts are open-sourced.Summary
AI-Generated Summary