YouTube-SL-25: Un Corpus Parallelo Multilingue su Larga Scala per la Lingua dei Segni in Dominio Aperto

Abstract

Anche per le lingue dei segni più studiate come la Lingua dei Segni Americana (ASL), i dati rappresentano il collo di bottiglia per la ricerca nel campo dell'apprendimento automatico. La situazione è ancora peggiore per le molte altre lingue dei segni utilizzate dalle comunità di persone sorde o con problemi di udito in tutto il mondo. In questo articolo, presentiamo YouTube-SL-25, un corpus multilingue su larga scala e a dominio aperto di video in lingua dei segni con didascalie apparentemente ben allineate estratti da YouTube. Con oltre 3000 ore di video in più di 25 lingue dei segni, YouTube-SL-25 è a) più di 3 volte la dimensione di YouTube-ASL, b) il più grande dataset parallelo di lingua dei segni fino ad oggi, e c) il primo o il più grande dataset parallelo per molte delle lingue che lo compongono. Forniamo baseline per i compiti di traduzione da segno a testo utilizzando un modello multilingue multitask unificato basato su T5 e riportiamo i punteggi su benchmark relativi a 4 lingue dei segni. I risultati dimostrano che il trasferimento multilingue apporta benefici sia alle lingue dei segni con risorse più abbondanti che a quelle con risorse più limitate all'interno di YouTube-SL-25.

English

Even for better-studied sign languages like American Sign Language (ASL), data is the bottleneck for machine learning research. The situation is worse yet for the many other sign languages used by Deaf/Hard of Hearing communities around the world. In this paper, we present YouTube-SL-25, a large-scale, open-domain multilingual corpus of sign language videos with seemingly well-aligned captions drawn from YouTube. With >3000 hours of videos across >25 sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest parallel sign language dataset to date, and c) the first or largest parallel dataset for many of its component languages. We provide baselines for sign-to-text tasks using a unified multilingual multitask model based on T5 and report scores on benchmarks across 4 sign languages. The results demonstrate that multilingual transfer benefits both higher- and lower-resource sign languages within YouTube-SL-25.

YouTube-SL-25: Un Corpus Parallelo Multilingue su Larga Scala per la Lingua dei Segni in Dominio Aperto

YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

Abstract

Support