ChatPaper.aiChatPaper

CVQA : Benchmark multilingue de réponse à des questions visuelles adapté à la diversité culturelle

CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark

June 10, 2024
Auteurs: David Romero, Chenyang Lyu, Haryo Akbarianto Wibowo, Teresa Lynn, Injy Hamed, Aditya Nanda Kishore, Aishik Mandal, Alina Dragonetti, Artem Abzaliev, Atnafu Lambebo Tonja, Bontu Fufa Balcha, Chenxi Whitehouse, Christian Salamea, Dan John Velasco, David Ifeoluwa Adelani, David Le Meur, Emilio Villa-Cueva, Fajri Koto, Fauzan Farooqui, Frederico Belcavello, Ganzorig Batnasan, Gisela Vallejo, Grainne Caulfield, Guido Ivetta, Haiyue Song, Henok Biadglign Ademtew, Hernán Maina, Holy Lovenia, Israel Abebe Azime, Jan Christian Blaise Cruz, Jay Gala, Jiahui Geng, Jesus-German Ortiz-Barajas, Jinheon Baek, Jocelyn Dunstan, Laura Alonso Alemany, Kumaranage Ravindu Yasas Nagasinghe, Luciana Benotti, Luis Fernando D'Haro, Marcelo Viridiano, Marcos Estecha-Garitagoitia, Maria Camila Buitrago Cabrera, Mario Rodríguez-Cantelar, Mélanie Jouitteau, Mihail Mihaylov, Mohamed Fazli Mohamed Imam, Muhammad Farid Adilazuarda, Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Naome Etori, Olivier Niyomugisha, Paula Mónica Silva, Pranjal Chitale, Raj Dabre, Rendi Chevi, Ruochen Zhang, Ryandito Diandaru, Samuel Cahyawijaya, Santiago Góngora, Soyeong Jeong, Sukannya Purkayastha, Tatsuki Kuribayashi, Thanmay Jayakumar, Tiago Timponi Torrent, Toqeer Ehsan, Vladimir Araujo, Yova Kementchedjhieva, Zara Burzo, Zheng Wei Lim, Zheng Xin Yong, Oana Ignat, Joan Nwatu, Rada Mihalcea, Thamar Solorio, Alham Fikri Aji
cs.AI

Résumé

La Réponse à des Questions Visuelles (Visual Question Answering, VQA) est une tâche importante dans l'IA multimodale, souvent utilisée pour évaluer la capacité des modèles vision-langage à comprendre et à raisonner sur les connaissances présentes dans les données visuelles et textuelles. Cependant, la plupart des modèles VQA actuels utilisent des ensembles de données principalement centrés sur l'anglais et quelques langues mondiales majeures, avec des images généralement occidentalo-centrées. Bien que des efforts récents aient tenté d'augmenter le nombre de langues couvertes dans les ensembles de données VQA, ils manquent encore de diversité pour les langues à ressources limitées. Plus important encore, bien que ces ensembles de données étendent souvent leur portée linguistique via la traduction ou d'autres approches, ils conservent généralement les mêmes images, ce qui entraîne une représentation culturelle étroite. Pour remédier à ces limites, nous construisons CVQA, un nouveau benchmark multilingue et culturellement diversifié pour la Réponse à des Questions Visuelles, conçu pour couvrir un large éventail de langues et de cultures, en impliquant des locuteurs natifs et des experts culturels dans le processus de collecte de données. En conséquence, CVQA inclut des images et des questions culturellement pertinentes provenant de 28 pays sur quatre continents, couvrant 26 langues avec 11 systèmes d'écriture, pour un total de 9 000 questions. Nous évaluons ensuite plusieurs Modèles de Langage Multimodaux de Grande Taille (MLLMs) sur CVQA, et montrons que cet ensemble de données est difficile pour les modèles actuels les plus avancés. Ce benchmark peut servir de suite d'évaluation pour tester les capacités culturelles et les biais des modèles multimodaux, et nous espérons qu'il encouragera davantage d'efforts de recherche pour accroître la sensibilisation culturelle et la diversité linguistique dans ce domaine.
English
Visual Question Answering (VQA) is an important task in multimodal AI, and it is often used to test the ability of vision-language models to understand and reason on knowledge present in both visual and textual data. However, most of the current VQA models use datasets that are primarily focused on English and a few major world languages, with images that are typically Western-centric. While recent efforts have tried to increase the number of languages covered on VQA datasets, they still lack diversity in low-resource languages. More importantly, although these datasets often extend their linguistic range via translation or some other approaches, they usually keep images the same, resulting in narrow cultural representation. To address these limitations, we construct CVQA, a new Culturally-diverse multilingual Visual Question Answering benchmark, designed to cover a rich set of languages and cultures, where we engage native speakers and cultural experts in the data collection process. As a result, CVQA includes culturally-driven images and questions from across 28 countries on four continents, covering 26 languages with 11 scripts, providing a total of 9k questions. We then benchmark several Multimodal Large Language Models (MLLMs) on CVQA, and show that the dataset is challenging for the current state-of-the-art models. This benchmark can serve as a probing evaluation suite for assessing the cultural capability and bias of multimodal models and hopefully encourage more research efforts toward increasing cultural awareness and linguistic diversity in this field.

Summary

AI-Generated Summary

PDF61December 6, 2024