ChatPaper.aiChatPaper

YouTube-SL-25: Een grootschalig, domeinopen, meertalig parallel corpus voor gebarentaal

YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

July 15, 2024
Auteurs: Garrett Tanzer, Biao Zhang
cs.AI

Samenvatting

Zelfs voor beter bestudeerde gebarentalen zoals Amerikaanse Gebarentaal (ASL) vormt data de bottleneck voor machine learning-onderzoek. De situatie is nog erger voor de vele andere gebarentalen die worden gebruikt door Dove/Slechthorende gemeenschappen over de hele wereld. In dit artikel presenteren we YouTube-SL-25, een grootschalig, open-domain meertalig corpus van gebarentaalvideo's met ogenschijnlijk goed uitgelijnde bijschriften afkomstig van YouTube. Met meer dan 3000 uur aan video's in meer dan 25 gebarentalen, is YouTube-SL-25 a) meer dan 3 keer zo groot als YouTube-ASL, b) de grootste parallelle gebarentaaldataset tot nu toe, en c) de eerste of grootste parallelle dataset voor veel van de opgenomen talen. We bieden basislijnen voor gebaar-naar-tekst taken met behulp van een uniform meertalig multitask-model gebaseerd op T5 en rapporteren scores op benchmarks voor 4 gebarentalen. De resultaten tonen aan dat meertalige transfer zowel hoger- als lager-resource gebarentalen binnen YouTube-SL-25 ten goede komt.
English
Even for better-studied sign languages like American Sign Language (ASL), data is the bottleneck for machine learning research. The situation is worse yet for the many other sign languages used by Deaf/Hard of Hearing communities around the world. In this paper, we present YouTube-SL-25, a large-scale, open-domain multilingual corpus of sign language videos with seemingly well-aligned captions drawn from YouTube. With >3000 hours of videos across >25 sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest parallel sign language dataset to date, and c) the first or largest parallel dataset for many of its component languages. We provide baselines for sign-to-text tasks using a unified multilingual multitask model based on T5 and report scores on benchmarks across 4 sign languages. The results demonstrate that multilingual transfer benefits both higher- and lower-resource sign languages within YouTube-SL-25.
PDF104February 7, 2026