ChatPaper.aiChatPaper

CVQA: Benchmark de Resposta a Perguntas Visuais Multilíngue com Diversidade Cultural

CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark

June 10, 2024
Autores: David Romero, Chenyang Lyu, Haryo Akbarianto Wibowo, Teresa Lynn, Injy Hamed, Aditya Nanda Kishore, Aishik Mandal, Alina Dragonetti, Artem Abzaliev, Atnafu Lambebo Tonja, Bontu Fufa Balcha, Chenxi Whitehouse, Christian Salamea, Dan John Velasco, David Ifeoluwa Adelani, David Le Meur, Emilio Villa-Cueva, Fajri Koto, Fauzan Farooqui, Frederico Belcavello, Ganzorig Batnasan, Gisela Vallejo, Grainne Caulfield, Guido Ivetta, Haiyue Song, Henok Biadglign Ademtew, Hernán Maina, Holy Lovenia, Israel Abebe Azime, Jan Christian Blaise Cruz, Jay Gala, Jiahui Geng, Jesus-German Ortiz-Barajas, Jinheon Baek, Jocelyn Dunstan, Laura Alonso Alemany, Kumaranage Ravindu Yasas Nagasinghe, Luciana Benotti, Luis Fernando D'Haro, Marcelo Viridiano, Marcos Estecha-Garitagoitia, Maria Camila Buitrago Cabrera, Mario Rodríguez-Cantelar, Mélanie Jouitteau, Mihail Mihaylov, Mohamed Fazli Mohamed Imam, Muhammad Farid Adilazuarda, Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Naome Etori, Olivier Niyomugisha, Paula Mónica Silva, Pranjal Chitale, Raj Dabre, Rendi Chevi, Ruochen Zhang, Ryandito Diandaru, Samuel Cahyawijaya, Santiago Góngora, Soyeong Jeong, Sukannya Purkayastha, Tatsuki Kuribayashi, Thanmay Jayakumar, Tiago Timponi Torrent, Toqeer Ehsan, Vladimir Araujo, Yova Kementchedjhieva, Zara Burzo, Zheng Wei Lim, Zheng Xin Yong, Oana Ignat, Joan Nwatu, Rada Mihalcea, Thamar Solorio, Alham Fikri Aji
cs.AI

Resumo

A Resposta Visual a Perguntas (VQA, do inglês Visual Question Answering) é uma tarefa importante na IA multimodal, frequentemente utilizada para testar a capacidade dos modelos de visão e linguagem de compreender e raciocinar sobre o conhecimento presente em dados visuais e textuais. No entanto, a maioria dos modelos atuais de VQA utiliza conjuntos de dados focados principalmente no inglês e em algumas das principais línguas mundiais, com imagens tipicamente centradas na cultura ocidental. Embora esforços recentes tenham tentado aumentar o número de idiomas cobertos em conjuntos de dados de VQA, ainda há uma falta de diversidade em línguas de baixo recurso. Mais importante, embora esses conjuntos de dados frequentemente ampliem seu alcance linguístico por meio de tradução ou outras abordagens, eles geralmente mantêm as mesmas imagens, resultando em uma representação cultural limitada. Para abordar essas limitações, construímos o CVQA, um novo benchmark de Resposta Visual a Perguntas multilíngue e culturalmente diverso, projetado para abranger um conjunto rico de idiomas e culturas, no qual envolvemos falantes nativos e especialistas culturais no processo de coleta de dados. Como resultado, o CVQA inclui imagens e perguntas culturalmente orientadas de 28 países em quatro continentes, abrangendo 26 idiomas com 11 sistemas de escrita, totalizando 9 mil perguntas. Em seguida, avaliamos vários Modelos de Linguagem Multimodais de Grande Escala (MLLMs, do inglês Multimodal Large Language Models) no CVQA e mostramos que o conjunto de dados é desafiador para os modelos mais avançados atualmente. Este benchmark pode servir como uma suíte de avaliação para analisar a capacidade cultural e o viés de modelos multimodais, e esperamos que incentive mais esforços de pesquisa para aumentar a conscientização cultural e a diversidade linguística nesse campo.
English
Visual Question Answering (VQA) is an important task in multimodal AI, and it is often used to test the ability of vision-language models to understand and reason on knowledge present in both visual and textual data. However, most of the current VQA models use datasets that are primarily focused on English and a few major world languages, with images that are typically Western-centric. While recent efforts have tried to increase the number of languages covered on VQA datasets, they still lack diversity in low-resource languages. More importantly, although these datasets often extend their linguistic range via translation or some other approaches, they usually keep images the same, resulting in narrow cultural representation. To address these limitations, we construct CVQA, a new Culturally-diverse multilingual Visual Question Answering benchmark, designed to cover a rich set of languages and cultures, where we engage native speakers and cultural experts in the data collection process. As a result, CVQA includes culturally-driven images and questions from across 28 countries on four continents, covering 26 languages with 11 scripts, providing a total of 9k questions. We then benchmark several Multimodal Large Language Models (MLLMs) on CVQA, and show that the dataset is challenging for the current state-of-the-art models. This benchmark can serve as a probing evaluation suite for assessing the cultural capability and bias of multimodal models and hopefully encourage more research efforts toward increasing cultural awareness and linguistic diversity in this field.
PDF61December 6, 2024