Afri-MCQA: 아프리카 언어를 위한 다중 모달 문화 질의응답
Afri-MCQA: Multimodal Cultural Question Answering for African Languages
January 9, 2026
저자: Atnafu Lambebo Tonja, Srija Anand, Emilio Villa-Cueva, Israel Abebe Azime, Jesujoba Oluwadara Alabi, Muhidin A. Mohamed, Debela Desalegn Yadeta, Negasi Haile Abadi, Abigail Oppong, Nnaemeka Casmir Obiefuna, Idris Abdulmumin, Naome A Etori, Eric Peter Wairagala, Kanda Patrick Tshinu, Imanigirimbabazi Emmanuel, Gabofetswe Malema, Alham Fikri Aji, David Ifeoluwa Adelani, Thamar Solorio
cs.AI
초록
아프리카는 전 세계 언어의 3분의 1 이상이 분포하는 지역임에도 AI 연구에서는 여전히 소외되어 있습니다. 본 논문에서는 12개국 15개 아프리카 언어로 구성된 7,500개의 질의-응답 쌍을 포함하는 첫 번째 다국어 문화 질의응답 벤치마크인 Afri-MCQA를 소개합니다. 이 벤치마크는 텍스트 및 음성 모달리티에 걸쳐 영어-아프리카 언어 병렬 질의응답 쌍을 제공하며, 전적으로 원어민에 의해 구축되었습니다. Afri-MCQA에서 대규모 언어 모델(LLM)을 벤치마킹한 결과, 오픈 웨이트 모델들은 평가된 문화권 전반에서 낮은 성능을 보였으며, 특히 원어(원어 텍스트 또는 음성)로 질의 시 개방형 시각 질의응답(VQA) 정확도가 거의 제로에 가까웠습니다. 언어적 능력을 평가하기 위해 문화적 지식과 별도로 해당 측면을 평가하기 위한 대조 실험을 포함하였으며, 텍스트와 음성 모두에서 원어와 영어 간에 상당한 성능 격차가 관찰되었습니다. 이러한 결과는 음성 중심 접근법, 문화에 기반한 사전 학습, 그리고 교차 언어 문화 전이의 필요성을 강조합니다. 아프리카 언어로 더 포용적인 다중 모드 AI 개발을 지원하기 위해, 본 Afri-MCQA 데이터셋을 HuggingFace(https://huggingface.co/datasets/Atnafu/Afri-MCQA)에서 학술 라이선스 또는 CC BY-NC 4.0 하에 공개합니다.
English
Africa is home to over one-third of the world's languages, yet remains underrepresented in AI research. We introduce Afri-MCQA, the first Multilingual Cultural Question-Answering benchmark covering 7.5k Q&A pairs across 15 African languages from 12 countries. The benchmark offers parallel English-African language Q&A pairs across text and speech modalities and was entirely created by native speakers. Benchmarking large language models (LLMs) on Afri-MCQA shows that open-weight models perform poorly across evaluated cultures, with near-zero accuracy on open-ended VQA when queried in native language or speech. To evaluate linguistic competence, we include control experiments meant to assess this specific aspect separate from cultural knowledge, and we observe significant performance gaps between native languages and English for both text and speech. These findings underscore the need for speech-first approaches, culturally grounded pretraining, and cross-lingual cultural transfer. To support more inclusive multimodal AI development in African languages, we release our Afri-MCQA under academic license or CC BY-NC 4.0 on HuggingFace (https://huggingface.co/datasets/Atnafu/Afri-MCQA)