Crowdsource, Crawl ou Gerar? Criando o SEA-VL, um Conjunto de Dados
Visão-Linguagem Multicultural para o Sudeste AsiáticoCrowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural
Vision-Language Dataset for Southeast Asia
O Sudeste Asiático (SEA) é uma região de extraordinária diversidade linguística e cultural, mas ainda é significativamente subrepresentada em pesquisas de visão e linguagem (VL). Isso frequentemente resulta em modelos de inteligência artificial (IA) que não conseguem capturar as nuances culturais do SEA. Para preencher essa lacuna, apresentamos o SEA-VL, uma iniciativa de código aberto dedicada ao desenvolvimento de dados de alta qualidade e culturalmente relevantes para idiomas do SEA. Ao envolver colaboradores de países do SEA, o SEA-VL visa garantir maior relevância cultural e diversidade, promovendo uma maior inclusão de idiomas subrepresentados em pesquisas de VL. Além do crowdsourcing, nossa iniciativa avança um passo além na exploração da coleta automática de imagens culturalmente relevantes por meio de crawling e geração de imagens. Primeiro, descobrimos que o crawling de imagens atinge aproximadamente ~85% de relevância cultural, sendo mais eficiente em termos de custo e tempo do que o crowdsourcing. Segundo, apesar dos avanços significativos em modelos de visão generativos, as imagens sintéticas ainda não são confiáveis para refletir com precisão as culturas do SEA. As imagens geradas frequentemente falham em refletir as tradições e contextos culturais sutis da região. Coletivamente, reunimos 1,28 milhão de imagens culturalmente relevantes do SEA, mais de 50 vezes maior do que outros conjuntos de dados existentes. Por meio do SEA-VL, buscamos reduzir a lacuna de representação no SEA, promovendo o desenvolvimento de sistemas de IA mais inclusivos que representem autenticamente as diversas culturas do Sudeste Asiático.