¿Crowdsourcing, rastreo o generación? Creación de SEA-VL, un conjunto de datos multicultural de visión y lenguaje para el sudeste asiáticoCrowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural
Vision-Language Dataset for Southeast Asia
El Sudeste Asiático (SEA) es una región de extraordinaria diversidad lingüística y cultural, pero sigue estando significativamente subrepresentada en la investigación de visión y lenguaje (VL). Esto a menudo resulta en modelos de inteligencia artificial (IA) que no logran captar los matices culturales de SEA. Para llenar este vacío, presentamos SEA-VL, una iniciativa de código abierto dedicada a desarrollar datos de alta calidad y culturalmente relevantes para los idiomas de SEA. Al involucrar a colaboradores de países de SEA, SEA-VL busca garantizar una mejor relevancia y diversidad cultural, fomentando una mayor inclusión de lenguas subrepresentadas en la investigación VL. Más allá del crowdsourcing, nuestra iniciativa da un paso más en la exploración de la recopilación automática de imágenes culturalmente relevantes mediante rastreo web y generación de imágenes. En primer lugar, encontramos que el rastreo de imágenes alcanza aproximadamente un 85% de relevancia cultural, siendo más eficiente en costos y tiempo que el crowdsourcing. En segundo lugar, a pesar del progreso sustancial en los modelos generativos de visión, las imágenes sintéticas siguen siendo poco confiables para reflejar con precisión las culturas de SEA. Las imágenes generadas a menudo no logran reflejar las tradiciones matizadas y los contextos culturales de la región. En conjunto, recopilamos 1.28 millones de imágenes culturalmente relevantes de SEA, más de 50 veces más grande que otros conjuntos de datos existentes. A través de SEA-VL, buscamos cerrar la brecha de representación en SEA, fomentando el desarrollo de sistemas de IA más inclusivos que representen auténticamente las diversas culturas de toda la región.