Crowdsourcing, exploration web ou génération ? Création de SEA-VL, un ensemble de données vision-langage multiculturel pour l'Asie du Sud-EstCrowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural
Vision-Language Dataset for Southeast Asia
L'Asie du Sud-Est (ASE) est une région d'une extraordinaire diversité linguistique et culturelle, mais elle reste significativement sous-représentée dans la recherche en vision-langage (VL). Cela se traduit souvent par des modÚles d'intelligence artificielle (IA) qui ne parviennent pas à saisir les nuances culturelles de l'ASE. Pour combler cette lacune, nous présentons SEA-VL, une initiative open-source dédiée au développement de données de haute qualité et culturellement pertinentes pour les langues de l'ASE. En impliquant des contributeurs issus des pays de l'ASE, SEA-VL vise à garantir une meilleure pertinence culturelle et une plus grande diversité, favorisant ainsi une inclusion accrue des langues sous-représentées dans la recherche en VL. Au-delà du crowdsourcing, notre initiative va plus loin en explorant la collecte automatique d'images culturellement pertinentes via le crawling et la génération d'images. PremiÚrement, nous constatons que le crawling d'images atteint environ ~85 % de pertinence culturelle tout en étant plus économique et plus rapide que le crowdsourcing. DeuxiÚmement, malgré les progrÚs substantiels des modÚles génératifs visuels, les images synthétiques restent peu fiables pour refléter avec précision les cultures de l'ASE. Les images générées échouent souvent à représenter les traditions nuancées et les contextes culturels de la région. Collectivement, nous rassemblons 1,28 million d'images culturellement pertinentes pour l'ASE, soit plus de 50 fois la taille des autres ensembles de données existants. à travers SEA-VL, nous aspirons à combler le fossé de représentation en ASE, en favorisant le développement de systÚmes d'IA plus inclusifs qui représentent authentiquement les diverses cultures de l'ASE.