Crowdsourcing, crawling o generazione? La creazione di SEA-VL, un dataset visione-linguaggio multiculturale per il Sud-est asiatico

Abstract

Il Sud-est asiatico (SEA) è una regione caratterizzata da una straordinaria diversità linguistica e culturale, ma rimane significativamente sottorappresentata nella ricerca visione-linguaggio (VL). Ciò spesso si traduce in modelli di intelligenza artificiale (AI) che non riescono a cogliere le sfumature culturali del SEA. Per colmare questa lacuna, presentiamo SEA-VL, un'iniziativa open-source dedicata allo sviluppo di dati di alta qualità e culturalmente rilevanti per le lingue del SEA. Coinvolgendo contributori provenienti dai paesi del SEA, SEA-VL mira a garantire una migliore rilevanza e diversità culturale, promuovendo una maggiore inclusione delle lingue sottorappresentate nella ricerca VL. Oltre al crowdsourcing, la nostra iniziativa fa un ulteriore passo avanti nell'esplorazione della raccolta automatica di immagini culturalmente rilevanti attraverso il crawling e la generazione di immagini. In primo luogo, scopriamo che il crawling di immagini raggiunge circa l'85% di rilevanza culturale, risultando più efficiente in termini di costi e tempi rispetto al crowdsourcing. In secondo luogo, nonostante i notevoli progressi nei modelli generativi di visione, le immagini sintetiche rimangono inaffidabili nel riflettere accuratamente le culture del SEA. Le immagini generate spesso non riescono a rappresentare le tradizioni e i contesti culturali sfumati della regione. Complessivamente, raccogliamo 1,28 milioni di immagini culturalmente rilevanti per il SEA, più di 50 volte superiori rispetto ad altri dataset esistenti. Attraverso SEA-VL, miriamo a colmare il divario di rappresentazione nel SEA, promuovendo lo sviluppo di sistemi di AI più inclusivi che rappresentino autenticamente le diverse culture del Sud-est asiatico.

English

Southeast Asia (SEA) is a region of extraordinary linguistic and cultural diversity, yet it remains significantly underrepresented in vision-language (VL) research. This often results in artificial intelligence (AI) models that fail to capture SEA cultural nuances. To fill this gap, we present SEA-VL, an open-source initiative dedicated to developing high-quality, culturally relevant data for SEA languages. By involving contributors from SEA countries, SEA-VL aims to ensure better cultural relevance and diversity, fostering greater inclusivity of underrepresented languages in VL research. Beyond crowdsourcing, our initiative goes one step further in the exploration of the automatic collection of culturally relevant images through crawling and image generation. First, we find that image crawling achieves approximately ~85% cultural relevance while being more cost- and time-efficient than crowdsourcing. Second, despite the substantial progress in generative vision models, synthetic images remain unreliable in accurately reflecting SEA cultures. The generated images often fail to reflect the nuanced traditions and cultural contexts of the region. Collectively, we gather 1.28M SEA culturally-relevant images, more than 50 times larger than other existing datasets. Through SEA-VL, we aim to bridge the representation gap in SEA, fostering the development of more inclusive AI systems that authentically represent diverse cultures across SEA.

Crowdsourcing, crawling o generazione? La creazione di SEA-VL, un dataset visione-linguaggio multiculturale per il Sud-est asiatico

Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

Abstract

Support