Crowdsourcen, Crawlen of Genereren? Het creëren van SEA-VL, een multiculturele Vision-Language-dataset voor Zuidoost-AziëCrowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural
Vision-Language Dataset for Southeast Asia
Zuidoost-Azië (SEA) is een regio met een buitengewone linguïstische en culturele diversiteit, maar het blijft aanzienlijk ondervertegenwoordigd in onderzoek naar visie-taal (VL). Dit resulteert vaak in kunstmatige intelligentie (AI) modellen die de culturele nuances van SEA niet goed weergeven. Om deze kloof te dichten, presenteren we SEA-VL, een open-source initiatief dat zich richt op het ontwikkelen van hoogwaardige, cultureel relevante data voor SEA-talen. Door bijdragers uit SEA-landen te betrekken, streeft SEA-VL ernaar om een betere culturele relevantie en diversiteit te waarborgen, waardoor de inclusiviteit van ondervertegenwoordigde talen in VL-onderzoek wordt bevorderd. Naast crowdsourcing gaat ons initiatief een stap verder in het verkennen van de automatische verzameling van cultureel relevante afbeeldingen via webcrawling en beeldgeneratie. Ten eerste constateren we dat webcrawling ongeveer ~85% culturele relevantie bereikt, terwijl het kostenefficiënter en tijdbesparender is dan crowdsourcing. Ten tweede, ondanks de aanzienlijke vooruitgang in generatieve beeldmodellen, blijven synthetische afbeeldingen onbetrouwbaar in het nauwkeurig weergeven van SEA-culturen. De gegenereerde afbeeldingen slagen er vaak niet in om de genuanceerde tradities en culturele contexten van de regio te weerspiegelen. In totaal verzamelen we 1,28 miljoen cultureel relevante afbeeldingen van SEA, wat meer dan 50 keer groter is dan andere bestaande datasets. Met SEA-VL streven we ernaar om de representatiekloof in SEA te overbruggen, waardoor de ontwikkeling van meer inclusieve AI-systemen wordt bevorderd die authentiek de diverse culturen in heel SEA weergeven.