CVQA: Benchmark per il Visual Question Answering Multilingue e Culturalmente Diversificato
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark
June 10, 2024
Autori: David Romero, Chenyang Lyu, Haryo Akbarianto Wibowo, Teresa Lynn, Injy Hamed, Aditya Nanda Kishore, Aishik Mandal, Alina Dragonetti, Artem Abzaliev, Atnafu Lambebo Tonja, Bontu Fufa Balcha, Chenxi Whitehouse, Christian Salamea, Dan John Velasco, David Ifeoluwa Adelani, David Le Meur, Emilio Villa-Cueva, Fajri Koto, Fauzan Farooqui, Frederico Belcavello, Ganzorig Batnasan, Gisela Vallejo, Grainne Caulfield, Guido Ivetta, Haiyue Song, Henok Biadglign Ademtew, Hernán Maina, Holy Lovenia, Israel Abebe Azime, Jan Christian Blaise Cruz, Jay Gala, Jiahui Geng, Jesus-German Ortiz-Barajas, Jinheon Baek, Jocelyn Dunstan, Laura Alonso Alemany, Kumaranage Ravindu Yasas Nagasinghe, Luciana Benotti, Luis Fernando D'Haro, Marcelo Viridiano, Marcos Estecha-Garitagoitia, Maria Camila Buitrago Cabrera, Mario Rodríguez-Cantelar, Mélanie Jouitteau, Mihail Mihaylov, Mohamed Fazli Mohamed Imam, Muhammad Farid Adilazuarda, Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Naome Etori, Olivier Niyomugisha, Paula Mónica Silva, Pranjal Chitale, Raj Dabre, Rendi Chevi, Ruochen Zhang, Ryandito Diandaru, Samuel Cahyawijaya, Santiago Góngora, Soyeong Jeong, Sukannya Purkayastha, Tatsuki Kuribayashi, Thanmay Jayakumar, Tiago Timponi Torrent, Toqeer Ehsan, Vladimir Araujo, Yova Kementchedjhieva, Zara Burzo, Zheng Wei Lim, Zheng Xin Yong, Oana Ignat, Joan Nwatu, Rada Mihalcea, Thamar Solorio, Alham Fikri Aji
cs.AI
Abstract
Il Visual Question Answering (VQA) è un compito importante nell'ambito dell'IA multimodale e viene spesso utilizzato per testare la capacità dei modelli visione-linguaggio di comprendere e ragionare sulle conoscenze presenti sia nei dati visivi che testuali. Tuttavia, la maggior parte degli attuali modelli VQA utilizza dataset principalmente focalizzati sull'inglese e su poche altre lingue principali, con immagini tipicamente centrate sulla cultura occidentale. Sebbene recenti sforzi abbiano cercato di aumentare il numero di lingue coperte nei dataset VQA, questi mancano ancora di diversità per le lingue a bassa risorsa. Ancora più importante, sebbene questi dataset spesso estendano la loro gamma linguistica tramite traduzione o altri approcci, di solito mantengono le stesse immagini, risultando in una rappresentazione culturale limitata. Per affrontare queste limitazioni, abbiamo costruito CVQA, un nuovo benchmark di Visual Question Answering multilingue e culturalmente diversificato, progettato per coprire un ricco insieme di lingue e culture, coinvolgendo parlanti nativi ed esperti culturali nel processo di raccolta dati. Di conseguenza, CVQA include immagini e domande guidate culturalmente provenienti da 28 paesi su quattro continenti, coprendo 26 lingue con 11 sistemi di scrittura, fornendo un totale di 9k domande. Abbiamo quindi valutato diversi Modelli Linguistici Multimodali di Grande Scala (MLLMs) su CVQA, dimostrando che il dataset rappresenta una sfida per gli attuali modelli all'avanguardia. Questo benchmark può servire come suite di valutazione per analizzare la capacità culturale e i pregiudizi dei modelli multimodali e, si spera, incoraggiare ulteriori sforzi di ricerca verso l'aumento della consapevolezza culturale e della diversità linguistica in questo campo.
English
Visual Question Answering (VQA) is an important task in multimodal AI, and it
is often used to test the ability of vision-language models to understand and
reason on knowledge present in both visual and textual data. However, most of
the current VQA models use datasets that are primarily focused on English and a
few major world languages, with images that are typically Western-centric.
While recent efforts have tried to increase the number of languages covered on
VQA datasets, they still lack diversity in low-resource languages. More
importantly, although these datasets often extend their linguistic range via
translation or some other approaches, they usually keep images the same,
resulting in narrow cultural representation. To address these limitations, we
construct CVQA, a new Culturally-diverse multilingual Visual Question Answering
benchmark, designed to cover a rich set of languages and cultures, where we
engage native speakers and cultural experts in the data collection process. As
a result, CVQA includes culturally-driven images and questions from across 28
countries on four continents, covering 26 languages with 11 scripts, providing
a total of 9k questions. We then benchmark several Multimodal Large Language
Models (MLLMs) on CVQA, and show that the dataset is challenging for the
current state-of-the-art models. This benchmark can serve as a probing
evaluation suite for assessing the cultural capability and bias of multimodal
models and hopefully encourage more research efforts toward increasing cultural
awareness and linguistic diversity in this field.