ChatPaper.aiChatPaper

CVQA:文化的多様性を考慮した多言語視覚質問応答ベンチマーク

CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark

June 10, 2024
著者: David Romero, Chenyang Lyu, Haryo Akbarianto Wibowo, Teresa Lynn, Injy Hamed, Aditya Nanda Kishore, Aishik Mandal, Alina Dragonetti, Artem Abzaliev, Atnafu Lambebo Tonja, Bontu Fufa Balcha, Chenxi Whitehouse, Christian Salamea, Dan John Velasco, David Ifeoluwa Adelani, David Le Meur, Emilio Villa-Cueva, Fajri Koto, Fauzan Farooqui, Frederico Belcavello, Ganzorig Batnasan, Gisela Vallejo, Grainne Caulfield, Guido Ivetta, Haiyue Song, Henok Biadglign Ademtew, Hernán Maina, Holy Lovenia, Israel Abebe Azime, Jan Christian Blaise Cruz, Jay Gala, Jiahui Geng, Jesus-German Ortiz-Barajas, Jinheon Baek, Jocelyn Dunstan, Laura Alonso Alemany, Kumaranage Ravindu Yasas Nagasinghe, Luciana Benotti, Luis Fernando D'Haro, Marcelo Viridiano, Marcos Estecha-Garitagoitia, Maria Camila Buitrago Cabrera, Mario Rodríguez-Cantelar, Mélanie Jouitteau, Mihail Mihaylov, Mohamed Fazli Mohamed Imam, Muhammad Farid Adilazuarda, Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Naome Etori, Olivier Niyomugisha, Paula Mónica Silva, Pranjal Chitale, Raj Dabre, Rendi Chevi, Ruochen Zhang, Ryandito Diandaru, Samuel Cahyawijaya, Santiago Góngora, Soyeong Jeong, Sukannya Purkayastha, Tatsuki Kuribayashi, Thanmay Jayakumar, Tiago Timponi Torrent, Toqeer Ehsan, Vladimir Araujo, Yova Kementchedjhieva, Zara Burzo, Zheng Wei Lim, Zheng Xin Yong, Oana Ignat, Joan Nwatu, Rada Mihalcea, Thamar Solorio, Alham Fikri Aji
cs.AI

要旨

視覚質問応答(VQA)はマルチモーダルAIにおける重要なタスクであり、視覚と言語のモデルが視覚的およびテキストデータに存在する知識を理解し、推論する能力をテストするためによく使用されます。しかし、現在のVQAモデルの多くは、主に英語と少数の主要な世界言語に焦点を当てたデータセットを使用しており、画像も通常は西洋中心のものです。最近の取り組みではVQAデータセットでカバーされる言語の数を増やそうとしていますが、低リソース言語の多様性は依然として不足しています。さらに重要なことに、これらのデータセットは翻訳や他のアプローチを通じて言語範囲を拡張することが多いものの、通常は画像をそのままにしているため、文化的表現が狭くなっています。これらの制限に対処するため、我々はCVQAという新しい文化的多様性を持つ多言語視覚質問応答ベンチマークを構築しました。このベンチマークは、豊富な言語と文化をカバーするように設計されており、データ収集プロセスにネイティブスピーカーや文化専門家を関与させています。その結果、CVQAは4大陸の28か国から文化的に動機付けられた画像と質問を含み、11のスクリプトを持つ26言語をカバーし、合計9,000の質問を提供します。その後、いくつかのマルチモーダル大規模言語モデル(MLLM)をCVQAでベンチマークし、このデータセットが現在の最先端モデルにとって挑戦的であることを示します。このベンチマークは、マルチモーダルモデルの文化的能力とバイアスを評価するためのプロービング評価スイートとして機能し、この分野における文化的認識と言語的多様性を高めるためのさらなる研究努力を促進することが期待されます。
English
Visual Question Answering (VQA) is an important task in multimodal AI, and it is often used to test the ability of vision-language models to understand and reason on knowledge present in both visual and textual data. However, most of the current VQA models use datasets that are primarily focused on English and a few major world languages, with images that are typically Western-centric. While recent efforts have tried to increase the number of languages covered on VQA datasets, they still lack diversity in low-resource languages. More importantly, although these datasets often extend their linguistic range via translation or some other approaches, they usually keep images the same, resulting in narrow cultural representation. To address these limitations, we construct CVQA, a new Culturally-diverse multilingual Visual Question Answering benchmark, designed to cover a rich set of languages and cultures, where we engage native speakers and cultural experts in the data collection process. As a result, CVQA includes culturally-driven images and questions from across 28 countries on four continents, covering 26 languages with 11 scripts, providing a total of 9k questions. We then benchmark several Multimodal Large Language Models (MLLMs) on CVQA, and show that the dataset is challenging for the current state-of-the-art models. This benchmark can serve as a probing evaluation suite for assessing the cultural capability and bias of multimodal models and hopefully encourage more research efforts toward increasing cultural awareness and linguistic diversity in this field.

Summary

AI-Generated Summary

PDF61December 6, 2024