YouTube-SL-25: Um Corpus Paralelo de Língua Gestual Multilíngue em Grande Escala de Domínio Aberto
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus
July 15, 2024
Autores: Garrett Tanzer, Biao Zhang
cs.AI
Resumo
Mesmo para línguas de sinais mais estudadas como a Língua de Sinais Americana (ASL), os dados representam o gargalo para a pesquisa em aprendizado de máquina. A situação é ainda pior para as muitas outras línguas de sinais usadas pelas comunidades Surdas/Durante a Audição ao redor do mundo. Neste artigo, apresentamos o YouTube-SL-25, um corpus multilíngue de larga escala e domínio aberto de vídeos em língua de sinais com legendas aparentemente bem alinhadas, extraídas do YouTube. Com mais de 3000 horas de vídeos abrangendo mais de 25 línguas de sinais, o YouTube-SL-25 é a) mais de 3 vezes maior que o YouTube-ASL, b) o maior conjunto de dados paralelos de língua de sinais até o momento, e c) o primeiro ou maior conjunto de dados paralelos para muitas de suas línguas componentes. Nós fornecemos bases para tarefas de sinal para texto utilizando um modelo unificado multilíngue de multitarefa baseado no T5 e relatamos pontuações em benchmarks em 4 línguas de sinais. Os resultados demonstram que a transferência multilíngue beneficia tanto línguas de sinais com mais recursos quanto as com menos recursos dentro do YouTube-SL-25.
English
Even for better-studied sign languages like American Sign Language (ASL),
data is the bottleneck for machine learning research. The situation is worse
yet for the many other sign languages used by Deaf/Hard of Hearing communities
around the world. In this paper, we present YouTube-SL-25, a large-scale,
open-domain multilingual corpus of sign language videos with seemingly
well-aligned captions drawn from YouTube. With >3000 hours of videos across >25
sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest
parallel sign language dataset to date, and c) the first or largest parallel
dataset for many of its component languages. We provide baselines for
sign-to-text tasks using a unified multilingual multitask model based on T5 and
report scores on benchmarks across 4 sign languages. The results demonstrate
that multilingual transfer benefits both higher- and lower-resource sign
languages within YouTube-SL-25.