ChatPaper.aiChatPaper

YouTube-SL-25: Ein umfangreiches, offenes, mehrsprachiges Gebärdensprach-Parallelkorpus in großem Maßstab

YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

July 15, 2024
Autoren: Garrett Tanzer, Biao Zhang
cs.AI

Zusammenfassung

Auch für besser erforschte Zeichensprachen wie die amerikanische Zeichensprache (ASL) ist der Engpass für maschinelles Lernen die Daten. Die Situation ist noch schlimmer für die vielen anderen Zeichensprachen, die von Gehörlosen und Schwerhörigen Gemeinschaften auf der ganzen Welt verwendet werden. In diesem Paper präsentieren wir YouTube-SL-25, einen umfangreichen, offenen, mehrsprachigen Korpus von Zeichensprachenvideos mit scheinbar gut ausgerichteten Untertiteln, die von YouTube stammen. Mit >3000 Stunden Videos in über >25 Zeichensprachen ist YouTube-SL-25 a) mehr als 3-mal so groß wie YouTube-ASL, b) der größte parallele Zeichensprachendatensatz bis heute und c) der erste oder größte parallele Datensatz für viele seiner Komponentensprachen. Wir stellen Baselines für Zeichen-in-Text-Aufgaben unter Verwendung eines vereinheitlichten mehrsprachigen Multitask-Modells auf der Grundlage von T5 bereit und berichten über Ergebnisse auf Benchmarks in 4 Zeichensprachen. Die Ergebnisse zeigen, dass der mehrsprachige Transfer sowohl höher- als auch niedriger ressourcenreichen Zeichensprachen innerhalb von YouTube-SL-25 zugutekommt.
English
Even for better-studied sign languages like American Sign Language (ASL), data is the bottleneck for machine learning research. The situation is worse yet for the many other sign languages used by Deaf/Hard of Hearing communities around the world. In this paper, we present YouTube-SL-25, a large-scale, open-domain multilingual corpus of sign language videos with seemingly well-aligned captions drawn from YouTube. With >3000 hours of videos across >25 sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest parallel sign language dataset to date, and c) the first or largest parallel dataset for many of its component languages. We provide baselines for sign-to-text tasks using a unified multilingual multitask model based on T5 and report scores on benchmarks across 4 sign languages. The results demonstrate that multilingual transfer benefits both higher- and lower-resource sign languages within YouTube-SL-25.

Summary

AI-Generated Summary

PDF94November 28, 2024