YouTube-SL-25: Ein umfangreiches, offenes, mehrsprachiges Gebärdensprach-Parallelkorpus in großem Maßstab
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus
July 15, 2024
Autoren: Garrett Tanzer, Biao Zhang
cs.AI
Zusammenfassung
Auch für besser erforschte Zeichensprachen wie die amerikanische Zeichensprache (ASL) ist der Engpass für maschinelles Lernen die Daten. Die Situation ist noch schlimmer für die vielen anderen Zeichensprachen, die von Gehörlosen und Schwerhörigen Gemeinschaften auf der ganzen Welt verwendet werden. In diesem Paper präsentieren wir YouTube-SL-25, einen umfangreichen, offenen, mehrsprachigen Korpus von Zeichensprachenvideos mit scheinbar gut ausgerichteten Untertiteln, die von YouTube stammen. Mit >3000 Stunden Videos in über >25 Zeichensprachen ist YouTube-SL-25 a) mehr als 3-mal so groß wie YouTube-ASL, b) der größte parallele Zeichensprachendatensatz bis heute und c) der erste oder größte parallele Datensatz für viele seiner Komponentensprachen. Wir stellen Baselines für Zeichen-in-Text-Aufgaben unter Verwendung eines vereinheitlichten mehrsprachigen Multitask-Modells auf der Grundlage von T5 bereit und berichten über Ergebnisse auf Benchmarks in 4 Zeichensprachen. Die Ergebnisse zeigen, dass der mehrsprachige Transfer sowohl höher- als auch niedriger ressourcenreichen Zeichensprachen innerhalb von YouTube-SL-25 zugutekommt.
English
Even for better-studied sign languages like American Sign Language (ASL),
data is the bottleneck for machine learning research. The situation is worse
yet for the many other sign languages used by Deaf/Hard of Hearing communities
around the world. In this paper, we present YouTube-SL-25, a large-scale,
open-domain multilingual corpus of sign language videos with seemingly
well-aligned captions drawn from YouTube. With >3000 hours of videos across >25
sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest
parallel sign language dataset to date, and c) the first or largest parallel
dataset for many of its component languages. We provide baselines for
sign-to-text tasks using a unified multilingual multitask model based on T5 and
report scores on benchmarks across 4 sign languages. The results demonstrate
that multilingual transfer benefits both higher- and lower-resource sign
languages within YouTube-SL-25.Summary
AI-Generated Summary