CVQA: 문화적으로 다양한 다국어 시각적 질의응답 벤치마크
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark
June 10, 2024
저자: David Romero, Chenyang Lyu, Haryo Akbarianto Wibowo, Teresa Lynn, Injy Hamed, Aditya Nanda Kishore, Aishik Mandal, Alina Dragonetti, Artem Abzaliev, Atnafu Lambebo Tonja, Bontu Fufa Balcha, Chenxi Whitehouse, Christian Salamea, Dan John Velasco, David Ifeoluwa Adelani, David Le Meur, Emilio Villa-Cueva, Fajri Koto, Fauzan Farooqui, Frederico Belcavello, Ganzorig Batnasan, Gisela Vallejo, Grainne Caulfield, Guido Ivetta, Haiyue Song, Henok Biadglign Ademtew, Hernán Maina, Holy Lovenia, Israel Abebe Azime, Jan Christian Blaise Cruz, Jay Gala, Jiahui Geng, Jesus-German Ortiz-Barajas, Jinheon Baek, Jocelyn Dunstan, Laura Alonso Alemany, Kumaranage Ravindu Yasas Nagasinghe, Luciana Benotti, Luis Fernando D'Haro, Marcelo Viridiano, Marcos Estecha-Garitagoitia, Maria Camila Buitrago Cabrera, Mario Rodríguez-Cantelar, Mélanie Jouitteau, Mihail Mihaylov, Mohamed Fazli Mohamed Imam, Muhammad Farid Adilazuarda, Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Naome Etori, Olivier Niyomugisha, Paula Mónica Silva, Pranjal Chitale, Raj Dabre, Rendi Chevi, Ruochen Zhang, Ryandito Diandaru, Samuel Cahyawijaya, Santiago Góngora, Soyeong Jeong, Sukannya Purkayastha, Tatsuki Kuribayashi, Thanmay Jayakumar, Tiago Timponi Torrent, Toqeer Ehsan, Vladimir Araujo, Yova Kementchedjhieva, Zara Burzo, Zheng Wei Lim, Zheng Xin Yong, Oana Ignat, Joan Nwatu, Rada Mihalcea, Thamar Solorio, Alham Fikri Aji
cs.AI
초록
시각 질의응답(Visual Question Answering, VQA)은 다중모달 AI에서 중요한 과제로, 시각-언어 모델이 시각적 및 텍스트 데이터에 존재하는 지식을 이해하고 추론하는 능력을 테스트하는 데 자주 사용됩니다. 그러나 현재 대부분의 VQA 모델은 주로 영어와 몇 가지 주요 세계 언어에 초점을 맞춘 데이터셋을 사용하며, 이미지도 일반적으로 서구 중심적입니다. 최근 VQA 데이터셋의 언어 범위를 확장하려는 노력이 있었지만, 여전히 저자원 언어의 다양성이 부족합니다. 더 중요한 것은, 이러한 데이터셋이 번역이나 기타 방법을 통해 언어 범위를 확장하더라도 일반적으로 이미지는 동일하게 유지되어 문화적 표현이 제한적이라는 점입니다. 이러한 한계를 해결하기 위해, 우리는 새로운 문화적으로 다양한 다국어 시각 질의응답 벤치마크인 CVQA를 구축했습니다. CVQA는 풍부한 언어와 문화를 포괄하도록 설계되었으며, 데이터 수집 과정에서 원어민과 문화 전문가를 참여시켰습니다. 결과적으로 CVQA는 4개 대륙의 28개 국가에서 수집된 문화 중심의 이미지와 질문을 포함하며, 11개의 문자 체계를 사용하는 26개 언어를 다루고 총 9,000개의 질문을 제공합니다. 그런 다음 여러 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 CVQA에서 벤치마킹했으며, 이 데이터셋이 현재 최첨단 모델들에게도 도전적임을 보여줍니다. 이 벤치마크는 다중모달 모델의 문화적 능력과 편향을 평가하기 위한 탐색적 평가 도구로 사용될 수 있으며, 이 분야에서 문화적 인식과 언어적 다양성을 증진하기 위한 더 많은 연구 노력을 촉진할 것으로 기대됩니다.
English
Visual Question Answering (VQA) is an important task in multimodal AI, and it
is often used to test the ability of vision-language models to understand and
reason on knowledge present in both visual and textual data. However, most of
the current VQA models use datasets that are primarily focused on English and a
few major world languages, with images that are typically Western-centric.
While recent efforts have tried to increase the number of languages covered on
VQA datasets, they still lack diversity in low-resource languages. More
importantly, although these datasets often extend their linguistic range via
translation or some other approaches, they usually keep images the same,
resulting in narrow cultural representation. To address these limitations, we
construct CVQA, a new Culturally-diverse multilingual Visual Question Answering
benchmark, designed to cover a rich set of languages and cultures, where we
engage native speakers and cultural experts in the data collection process. As
a result, CVQA includes culturally-driven images and questions from across 28
countries on four continents, covering 26 languages with 11 scripts, providing
a total of 9k questions. We then benchmark several Multimodal Large Language
Models (MLLMs) on CVQA, and show that the dataset is challenging for the
current state-of-the-art models. This benchmark can serve as a probing
evaluation suite for assessing the cultural capability and bias of multimodal
models and hopefully encourage more research efforts toward increasing cultural
awareness and linguistic diversity in this field.Summary
AI-Generated Summary