YouTube-SL-25: Un corpus paralelo de lenguaje de señas multilingüe a gran escala de dominio abierto.

Resumen

Incluso para lenguas de señas más estudiadas como la Lengua de Señas Americana (ASL), los datos representan el cuello de botella para la investigación en aprendizaje automático. La situación es aún peor para las muchas otras lenguas de señas utilizadas por las comunidades sordas / con problemas de audición en todo el mundo. En este documento, presentamos YouTube-SL-25, un corpus multilingüe de gran escala y dominio abierto de videos de lenguaje de señas con subtítulos aparentemente bien alineados extraídos de YouTube. Con >3000 horas de videos en >25 lenguas de señas, YouTube-SL-25 es a) >3 veces más grande que YouTube-ASL, b) el conjunto de datos paralelo de lenguaje de señas más grande hasta la fecha, y c) el primer o el conjunto de datos paralelo más grande para muchas de sus lenguas componentes. Proporcionamos líneas de base para tareas de signos a texto utilizando un modelo unificado multilingüe basado en T5 y reportamos puntuaciones en pruebas en 4 lenguas de señas. Los resultados demuestran que la transferencia multilingüe beneficia tanto a las lenguas de señas con más recursos como a las de menor recursos dentro de YouTube-SL-25.

English

Even for better-studied sign languages like American Sign Language (ASL), data is the bottleneck for machine learning research. The situation is worse yet for the many other sign languages used by Deaf/Hard of Hearing communities around the world. In this paper, we present YouTube-SL-25, a large-scale, open-domain multilingual corpus of sign language videos with seemingly well-aligned captions drawn from YouTube. With >3000 hours of videos across >25 sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest parallel sign language dataset to date, and c) the first or largest parallel dataset for many of its component languages. We provide baselines for sign-to-text tasks using a unified multilingual multitask model based on T5 and report scores on benchmarks across 4 sign languages. The results demonstrate that multilingual transfer benefits both higher- and lower-resource sign languages within YouTube-SL-25.

YouTube-SL-25: Un corpus paralelo de lenguaje de señas multilingüe a gran escala de dominio abierto.

YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

Resumen

Support