YouTube-SL-25: Een grootschalig, domeinopen, meertalig parallel corpus voor gebarentaal
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus
July 15, 2024
Auteurs: Garrett Tanzer, Biao Zhang
cs.AI
Samenvatting
Zelfs voor beter bestudeerde gebarentalen zoals Amerikaanse Gebarentaal (ASL) vormt data de bottleneck voor machine learning-onderzoek. De situatie is nog erger voor de vele andere gebarentalen die worden gebruikt door Dove/Slechthorende gemeenschappen over de hele wereld. In dit artikel presenteren we YouTube-SL-25, een grootschalig, open-domain meertalig corpus van gebarentaalvideo's met ogenschijnlijk goed uitgelijnde bijschriften afkomstig van YouTube. Met meer dan 3000 uur aan video's in meer dan 25 gebarentalen, is YouTube-SL-25 a) meer dan 3 keer zo groot als YouTube-ASL, b) de grootste parallelle gebarentaaldataset tot nu toe, en c) de eerste of grootste parallelle dataset voor veel van de opgenomen talen. We bieden basislijnen voor gebaar-naar-tekst taken met behulp van een uniform meertalig multitask-model gebaseerd op T5 en rapporteren scores op benchmarks voor 4 gebarentalen. De resultaten tonen aan dat meertalige transfer zowel hoger- als lager-resource gebarentalen binnen YouTube-SL-25 ten goede komt.
English
Even for better-studied sign languages like American Sign Language (ASL),
data is the bottleneck for machine learning research. The situation is worse
yet for the many other sign languages used by Deaf/Hard of Hearing communities
around the world. In this paper, we present YouTube-SL-25, a large-scale,
open-domain multilingual corpus of sign language videos with seemingly
well-aligned captions drawn from YouTube. With >3000 hours of videos across >25
sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest
parallel sign language dataset to date, and c) the first or largest parallel
dataset for many of its component languages. We provide baselines for
sign-to-text tasks using a unified multilingual multitask model based on T5 and
report scores on benchmarks across 4 sign languages. The results demonstrate
that multilingual transfer benefits both higher- and lower-resource sign
languages within YouTube-SL-25.