YouTube-SL-25 : Un corpus parallèle multilingue de langue des signes à grande échelle et en domaine ouvert
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus
July 15, 2024
Auteurs: Garrett Tanzer, Biao Zhang
cs.AI
Résumé
Même pour les langues des signes mieux étudiées comme la langue des signes américaine (ASL), les données constituent le principal goulot d'étranglement pour la recherche en apprentissage automatique. La situation est encore plus critique pour les nombreuses autres langues des signes utilisées par les communautés sourdes et malentendantes à travers le monde. Dans cet article, nous présentons YouTube-SL-25, un corpus multilingue à grande échelle et ouvert de vidéos en langue des signes, avec des sous-titres apparemment bien alignés, extraits de YouTube. Avec plus de 3000 heures de vidéos couvrant plus de 25 langues des signes, YouTube-SL-25 est a) plus de 3 fois plus volumineux que YouTube-ASL, b) le plus grand ensemble de données parallèles en langue des signes à ce jour, et c) le premier ou le plus grand ensemble de données parallèles pour plusieurs des langues qu'il inclut. Nous fournissons des modèles de référence pour les tâches de traduction signe-texte en utilisant un modèle multilingue multitâche unifié basé sur T5, et rapportons les scores sur des benchmarks couvrant 4 langues des signes. Les résultats démontrent que le transfert multilingue profite à la fois aux langues des signes mieux dotées et moins dotées au sein de YouTube-SL-25.
English
Even for better-studied sign languages like American Sign Language (ASL),
data is the bottleneck for machine learning research. The situation is worse
yet for the many other sign languages used by Deaf/Hard of Hearing communities
around the world. In this paper, we present YouTube-SL-25, a large-scale,
open-domain multilingual corpus of sign language videos with seemingly
well-aligned captions drawn from YouTube. With >3000 hours of videos across >25
sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest
parallel sign language dataset to date, and c) the first or largest parallel
dataset for many of its component languages. We provide baselines for
sign-to-text tasks using a unified multilingual multitask model based on T5 and
report scores on benchmarks across 4 sign languages. The results demonstrate
that multilingual transfer benefits both higher- and lower-resource sign
languages within YouTube-SL-25.Summary
AI-Generated Summary