ChatPaper.aiChatPaper

Afri-MCQA: Risposte a Domande Culturali Multimediali per le Lingue Africane

Afri-MCQA: Multimodal Cultural Question Answering for African Languages

January 9, 2026
Autori: Atnafu Lambebo Tonja, Srija Anand, Emilio Villa-Cueva, Israel Abebe Azime, Jesujoba Oluwadara Alabi, Muhidin A. Mohamed, Debela Desalegn Yadeta, Negasi Haile Abadi, Abigail Oppong, Nnaemeka Casmir Obiefuna, Idris Abdulmumin, Naome A Etori, Eric Peter Wairagala, Kanda Patrick Tshinu, Imanigirimbabazi Emmanuel, Gabofetswe Malema, Alham Fikri Aji, David Ifeoluwa Adelani, Thamar Solorio
cs.AI

Abstract

L'Africa ospita oltre un terzo delle lingue del mondo, ma rimane sottorappresentata nella ricerca sull'intelligenza artificiale. Presentiamo Afri-MCQA, il primo benchmark multilingue di domande e risposte culturali, che comprende 7.500 coppie di domande e risposte in 15 lingue africane provenienti da 12 paesi. Il benchmark offre coppie di domande e risposte parallele in inglese e lingue africane attraverso le modalità di testo e parlato ed è stato interamente creato da parlanti nativi. Il benchmarking di modelli linguistici di grandi dimensioni (LLM) su Afri-MCQA mostra che i modelli open-weight hanno prestazioni scarse in tutte le culture valutate, con un'accuratezza quasi zero su VQA a risposta aperta quando interrogati in lingua nativa o tramite parlato. Per valutare la competenza linguistica, includiamo esperimenti di controllo progettati per valutare questo aspetto specifico separatamente dalla conoscenza culturale, e osserviamo divari significativi nelle prestazioni tra le lingue native e l'inglese, sia per il testo che per il parlato. Questi risultati sottolineano la necessità di approcci "speech-first", di pre-addestramento culturalmente radicato e di trasferimento culturale cross-linguistico. Per supportare uno sviluppo più inclusivo dell'IA multimodale nelle lingue africane, rilasciamo il nostro Afri-MCQA con licenza accademica o CC BY-NC 4.0 su HuggingFace (https://huggingface.co/datasets/Atnafu/Afri-MCQA).
English
Africa is home to over one-third of the world's languages, yet remains underrepresented in AI research. We introduce Afri-MCQA, the first Multilingual Cultural Question-Answering benchmark covering 7.5k Q&A pairs across 15 African languages from 12 countries. The benchmark offers parallel English-African language Q&A pairs across text and speech modalities and was entirely created by native speakers. Benchmarking large language models (LLMs) on Afri-MCQA shows that open-weight models perform poorly across evaluated cultures, with near-zero accuracy on open-ended VQA when queried in native language or speech. To evaluate linguistic competence, we include control experiments meant to assess this specific aspect separate from cultural knowledge, and we observe significant performance gaps between native languages and English for both text and speech. These findings underscore the need for speech-first approaches, culturally grounded pretraining, and cross-lingual cultural transfer. To support more inclusive multimodal AI development in African languages, we release our Afri-MCQA under academic license or CC BY-NC 4.0 on HuggingFace (https://huggingface.co/datasets/Atnafu/Afri-MCQA)
PDF23February 7, 2026