크라우드소싱, 크롤링, 생성 중 어떤 방법을 선택할까? 동남아시아를 위한 다문화 시각-언어 데이터셋 SEA-VL 구축하기Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural
Vision-Language Dataset for Southeast Asia
동남아시아(SEA)는 언어적, 문화적으로 매우 다양한 지역임에도 불구하고, 비전-언어(VL) 연구에서 상당히 저조한 대표성을 보이고 있습니다. 이로 인해 동남아시아의 문화적 뉘앙스를 제대로 반영하지 못하는 인공지능(AI) 모델들이 종종 만들어지곤 합니다. 이러한 격차를 메우기 위해, 우리는 동남아시아 언어를 위한 고품질의 문화적 관련성을 갖춘 데이터를 개발하는 오픈소스 프로젝트인 SEA-VL을 소개합니다. SEA 국가의 기여자들을 참여시킴으로써, SEA-VL은 더 나은 문화적 관련성과 다양성을 보장하고, VL 연구에서 소외된 언어들의 포용성을 증진하는 것을 목표로 합니다. 크라우드소싱을 넘어, 우리의 이니셔티브는 크롤링과 이미지 생성을 통해 문화적으로 관련된 이미지를 자동으로 수집하는 방법을 탐구합니다. 첫째, 이미지 크롤링은 약 85%의 문화적 관련성을 달성하면서도 크라우드소싱보다 비용과 시간 면에서 더 효율적임을 발견했습니다. 둘째, 생성적 비전 모델의 상당한 발전에도 불구하고, 합성 이미지는 동남아시아 문화를 정확히 반영하는 데 여전히 신뢰할 수 없는 것으로 나타났습니다. 생성된 이미지들은 종종 이 지역의 미묘한 전통과 문화적 맥락을 반영하지 못합니다. 종합적으로, 우리는 128만 개의 동남아시아 문화적 관련 이미지를 수집했으며, 이는 기존 데이터셋보다 50배 이상 큰 규모입니다. SEA-VL을 통해, 우리는 동남아시아의 대표성 격차를 해소하고, 동남아시아 전역의 다양한 문화를 진정성 있게 반영하는 더 포용적인 AI 시스템의 개발을 촉진하고자 합니다.