Crowdsourcing, crawling o generazione? La creazione di SEA-VL, un dataset visione-linguaggio multiculturale per il Sud-est asiaticoCrowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural
Vision-Language Dataset for Southeast Asia
Il Sud-est asiatico (SEA) è una regione caratterizzata da una straordinaria diversità linguistica e culturale, ma rimane significativamente sottorappresentata nella ricerca visione-linguaggio (VL). Ciò spesso si traduce in modelli di intelligenza artificiale (AI) che non riescono a cogliere le sfumature culturali del SEA. Per colmare questa lacuna, presentiamo SEA-VL, un'iniziativa open-source dedicata allo sviluppo di dati di alta qualità e culturalmente rilevanti per le lingue del SEA. Coinvolgendo contributori provenienti dai paesi del SEA, SEA-VL mira a garantire una migliore rilevanza e diversità culturale, promuovendo una maggiore inclusione delle lingue sottorappresentate nella ricerca VL. Oltre al crowdsourcing, la nostra iniziativa fa un ulteriore passo avanti nell'esplorazione della raccolta automatica di immagini culturalmente rilevanti attraverso il crawling e la generazione di immagini. In primo luogo, scopriamo che il crawling di immagini raggiunge circa l'85% di rilevanza culturale, risultando più efficiente in termini di costi e tempi rispetto al crowdsourcing. In secondo luogo, nonostante i notevoli progressi nei modelli generativi di visione, le immagini sintetiche rimangono inaffidabili nel riflettere accuratamente le culture del SEA. Le immagini generate spesso non riescono a rappresentare le tradizioni e i contesti culturali sfumati della regione. Complessivamente, raccogliamo 1,28 milioni di immagini culturalmente rilevanti per il SEA, più di 50 volte superiori rispetto ad altri dataset esistenti. Attraverso SEA-VL, miriamo a colmare il divario di rappresentazione nel SEA, promuovendo lo sviluppo di sistemi di AI più inclusivi che rappresentino autenticamente le diverse culture del Sud-est asiatico.