YouTube-SL-25: Un corpus paralelo de lenguaje de señas multilingüe a gran escala de dominio abierto.
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus
July 15, 2024
Autores: Garrett Tanzer, Biao Zhang
cs.AI
Resumen
Incluso para lenguas de señas más estudiadas como la Lengua de Señas Americana (ASL), los datos representan el cuello de botella para la investigación en aprendizaje automático. La situación es aún peor para las muchas otras lenguas de señas utilizadas por las comunidades sordas / con problemas de audición en todo el mundo. En este documento, presentamos YouTube-SL-25, un corpus multilingüe de gran escala y dominio abierto de videos de lenguaje de señas con subtítulos aparentemente bien alineados extraídos de YouTube. Con >3000 horas de videos en >25 lenguas de señas, YouTube-SL-25 es a) >3 veces más grande que YouTube-ASL, b) el conjunto de datos paralelo de lenguaje de señas más grande hasta la fecha, y c) el primer o el conjunto de datos paralelo más grande para muchas de sus lenguas componentes. Proporcionamos líneas de base para tareas de signos a texto utilizando un modelo unificado multilingüe basado en T5 y reportamos puntuaciones en pruebas en 4 lenguas de señas. Los resultados demuestran que la transferencia multilingüe beneficia tanto a las lenguas de señas con más recursos como a las de menor recursos dentro de YouTube-SL-25.
English
Even for better-studied sign languages like American Sign Language (ASL),
data is the bottleneck for machine learning research. The situation is worse
yet for the many other sign languages used by Deaf/Hard of Hearing communities
around the world. In this paper, we present YouTube-SL-25, a large-scale,
open-domain multilingual corpus of sign language videos with seemingly
well-aligned captions drawn from YouTube. With >3000 hours of videos across >25
sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest
parallel sign language dataset to date, and c) the first or largest parallel
dataset for many of its component languages. We provide baselines for
sign-to-text tasks using a unified multilingual multitask model based on T5 and
report scores on benchmarks across 4 sign languages. The results demonstrate
that multilingual transfer benefits both higher- and lower-resource sign
languages within YouTube-SL-25.Summary
AI-Generated Summary