CVQA: Punto de referencia para la respuesta visual a preguntas multilingüe con diversidad cultural
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark
June 10, 2024
Autores: David Romero, Chenyang Lyu, Haryo Akbarianto Wibowo, Teresa Lynn, Injy Hamed, Aditya Nanda Kishore, Aishik Mandal, Alina Dragonetti, Artem Abzaliev, Atnafu Lambebo Tonja, Bontu Fufa Balcha, Chenxi Whitehouse, Christian Salamea, Dan John Velasco, David Ifeoluwa Adelani, David Le Meur, Emilio Villa-Cueva, Fajri Koto, Fauzan Farooqui, Frederico Belcavello, Ganzorig Batnasan, Gisela Vallejo, Grainne Caulfield, Guido Ivetta, Haiyue Song, Henok Biadglign Ademtew, Hernán Maina, Holy Lovenia, Israel Abebe Azime, Jan Christian Blaise Cruz, Jay Gala, Jiahui Geng, Jesus-German Ortiz-Barajas, Jinheon Baek, Jocelyn Dunstan, Laura Alonso Alemany, Kumaranage Ravindu Yasas Nagasinghe, Luciana Benotti, Luis Fernando D'Haro, Marcelo Viridiano, Marcos Estecha-Garitagoitia, Maria Camila Buitrago Cabrera, Mario Rodríguez-Cantelar, Mélanie Jouitteau, Mihail Mihaylov, Mohamed Fazli Mohamed Imam, Muhammad Farid Adilazuarda, Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Naome Etori, Olivier Niyomugisha, Paula Mónica Silva, Pranjal Chitale, Raj Dabre, Rendi Chevi, Ruochen Zhang, Ryandito Diandaru, Samuel Cahyawijaya, Santiago Góngora, Soyeong Jeong, Sukannya Purkayastha, Tatsuki Kuribayashi, Thanmay Jayakumar, Tiago Timponi Torrent, Toqeer Ehsan, Vladimir Araujo, Yova Kementchedjhieva, Zara Burzo, Zheng Wei Lim, Zheng Xin Yong, Oana Ignat, Joan Nwatu, Rada Mihalcea, Thamar Solorio, Alham Fikri Aji
cs.AI
Resumen
La Respuesta Visual a Preguntas (VQA, por sus siglas en inglés) es una tarea importante en la IA multimodal, y se utiliza frecuentemente para evaluar la capacidad de los modelos de visión y lenguaje para comprender y razonar sobre el conocimiento presente en datos tanto visuales como textuales. Sin embargo, la mayoría de los modelos actuales de VQA utilizan conjuntos de datos que se centran principalmente en el inglés y en unas pocas lenguas principales del mundo, con imágenes que suelen ser de carácter occidental. Aunque recientes esfuerzos han intentado ampliar el número de idiomas cubiertos en los conjuntos de datos de VQA, aún carecen de diversidad en lenguas de bajos recursos. Más importante aún, aunque estos conjuntos de datos a menudo extienden su rango lingüístico mediante traducción u otros enfoques, generalmente mantienen las mismas imágenes, lo que resulta en una representación cultural limitada. Para abordar estas limitaciones, construimos CVQA, un nuevo punto de referencia multilingüe y culturalmente diverso para la Respuesta Visual a Preguntas, diseñado para cubrir un amplio conjunto de idiomas y culturas, donde involucramos a hablantes nativos y expertos culturales en el proceso de recopilación de datos. Como resultado, CVQA incluye imágenes y preguntas culturalmente relevantes de 28 países en cuatro continentes, abarcando 26 idiomas con 11 sistemas de escritura, proporcionando un total de 9k preguntas. Luego, evaluamos varios Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) en CVQA, y demostramos que el conjunto de datos es un desafío para los modelos más avanzados actuales. Este punto de referencia puede servir como una suite de evaluación para analizar la capacidad cultural y el sesgo de los modelos multimodales, y esperamos que fomente más esfuerzos de investigación hacia el aumento de la conciencia cultural y la diversidad lingüística en este campo.
English
Visual Question Answering (VQA) is an important task in multimodal AI, and it
is often used to test the ability of vision-language models to understand and
reason on knowledge present in both visual and textual data. However, most of
the current VQA models use datasets that are primarily focused on English and a
few major world languages, with images that are typically Western-centric.
While recent efforts have tried to increase the number of languages covered on
VQA datasets, they still lack diversity in low-resource languages. More
importantly, although these datasets often extend their linguistic range via
translation or some other approaches, they usually keep images the same,
resulting in narrow cultural representation. To address these limitations, we
construct CVQA, a new Culturally-diverse multilingual Visual Question Answering
benchmark, designed to cover a rich set of languages and cultures, where we
engage native speakers and cultural experts in the data collection process. As
a result, CVQA includes culturally-driven images and questions from across 28
countries on four continents, covering 26 languages with 11 scripts, providing
a total of 9k questions. We then benchmark several Multimodal Large Language
Models (MLLMs) on CVQA, and show that the dataset is challenging for the
current state-of-the-art models. This benchmark can serve as a probing
evaluation suite for assessing the cultural capability and bias of multimodal
models and hopefully encourage more research efforts toward increasing cultural
awareness and linguistic diversity in this field.