Afri-MCQA : Réponses aux questions culturelles multimodales pour les langues africaines
Afri-MCQA: Multimodal Cultural Question Answering for African Languages
January 9, 2026
papers.authors: Atnafu Lambebo Tonja, Srija Anand, Emilio Villa-Cueva, Israel Abebe Azime, Jesujoba Oluwadara Alabi, Muhidin A. Mohamed, Debela Desalegn Yadeta, Negasi Haile Abadi, Abigail Oppong, Nnaemeka Casmir Obiefuna, Idris Abdulmumin, Naome A Etori, Eric Peter Wairagala, Kanda Patrick Tshinu, Imanigirimbabazi Emmanuel, Gabofetswe Malema, Alham Fikri Aji, David Ifeoluwa Adelani, Thamar Solorio
cs.AI
papers.abstract
L'Afrique abrite plus d'un tiers des langues du monde, mais reste sous-représentée dans la recherche en IA. Nous présentons Afri-MCQA, le premier benchmark multilingue de questions-réponses culturelles couvrant 7,5 paires de questions-réponses dans 15 langues africaines issues de 12 pays. Ce benchmark propose des paires de questions-réponses parallèles anglais-langues africaines à travers les modalités texte et parole, intégralement créées par des locuteurs natifs. L'évaluation des grands modèles de langage (LLM) sur Afri-MCQA révèle que les modèles à poids ouverts obtiennent de faibles performances sur les cultures évaluées, avec une précision quasi nulle en VQA à réponse libre lorsqu'ils sont interrogés en langue native ou par parole. Pour évaluer la compétence linguistique, nous incluons des expériences de contrôle visant à évaluer cet aspect spécifique indépendamment des connaissances culturelles, et nous observons des écarts de performance significatifs entre les langues natives et l'anglais, tant pour le texte que pour la parole. Ces résultats soulignent la nécessité d'approches axées sur la parole, de pré-entraînements ancrés culturellement et de transferts culturels translinguistiques. Pour favoriser le développement d'une IA multimodale plus inclusive dans les langues africaines, nous publions Afri-MCQA sous licence académique ou CC BY-NC 4.0 sur HuggingFace (https://huggingface.co/datasets/Atnafu/Afri-MCQA).
English
Africa is home to over one-third of the world's languages, yet remains underrepresented in AI research. We introduce Afri-MCQA, the first Multilingual Cultural Question-Answering benchmark covering 7.5k Q&A pairs across 15 African languages from 12 countries. The benchmark offers parallel English-African language Q&A pairs across text and speech modalities and was entirely created by native speakers. Benchmarking large language models (LLMs) on Afri-MCQA shows that open-weight models perform poorly across evaluated cultures, with near-zero accuracy on open-ended VQA when queried in native language or speech. To evaluate linguistic competence, we include control experiments meant to assess this specific aspect separate from cultural knowledge, and we observe significant performance gaps between native languages and English for both text and speech. These findings underscore the need for speech-first approaches, culturally grounded pretraining, and cross-lingual cultural transfer. To support more inclusive multimodal AI development in African languages, we release our Afri-MCQA under academic license or CC BY-NC 4.0 on HuggingFace (https://huggingface.co/datasets/Atnafu/Afri-MCQA)