YouTube-SL-25 : Un corpus parallèle multilingue de langue des signes à grande échelle et en domaine ouvert

papers.abstract

Même pour les langues des signes mieux étudiées comme la langue des signes américaine (ASL), les données constituent le principal goulot d'étranglement pour la recherche en apprentissage automatique. La situation est encore plus critique pour les nombreuses autres langues des signes utilisées par les communautés sourdes et malentendantes à travers le monde. Dans cet article, nous présentons YouTube-SL-25, un corpus multilingue à grande échelle et ouvert de vidéos en langue des signes, avec des sous-titres apparemment bien alignés, extraits de YouTube. Avec plus de 3000 heures de vidéos couvrant plus de 25 langues des signes, YouTube-SL-25 est a) plus de 3 fois plus volumineux que YouTube-ASL, b) le plus grand ensemble de données parallèles en langue des signes à ce jour, et c) le premier ou le plus grand ensemble de données parallèles pour plusieurs des langues qu'il inclut. Nous fournissons des modèles de référence pour les tâches de traduction signe-texte en utilisant un modèle multilingue multitâche unifié basé sur T5, et rapportons les scores sur des benchmarks couvrant 4 langues des signes. Les résultats démontrent que le transfert multilingue profite à la fois aux langues des signes mieux dotées et moins dotées au sein de YouTube-SL-25.

English

Even for better-studied sign languages like American Sign Language (ASL), data is the bottleneck for machine learning research. The situation is worse yet for the many other sign languages used by Deaf/Hard of Hearing communities around the world. In this paper, we present YouTube-SL-25, a large-scale, open-domain multilingual corpus of sign language videos with seemingly well-aligned captions drawn from YouTube. With >3000 hours of videos across >25 sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest parallel sign language dataset to date, and c) the first or largest parallel dataset for many of its component languages. We provide baselines for sign-to-text tasks using a unified multilingual multitask model based on T5 and report scores on benchmarks across 4 sign languages. The results demonstrate that multilingual transfer benefits both higher- and lower-resource sign languages within YouTube-SL-25.

YouTube-SL-25 : Un corpus parallèle multilingue de langue des signes à grande échelle et en domaine ouvert

YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

papers.abstract

Support