ChatPaper.aiChatPaper

YouTube-SL-25: Um Corpus Paralelo de Língua Gestual Multilíngue em Grande Escala de Domínio Aberto

YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

July 15, 2024
Autores: Garrett Tanzer, Biao Zhang
cs.AI

Resumo

Mesmo para línguas de sinais mais estudadas como a Língua de Sinais Americana (ASL), os dados representam o gargalo para a pesquisa em aprendizado de máquina. A situação é ainda pior para as muitas outras línguas de sinais usadas pelas comunidades Surdas/Durante a Audição ao redor do mundo. Neste artigo, apresentamos o YouTube-SL-25, um corpus multilíngue de larga escala e domínio aberto de vídeos em língua de sinais com legendas aparentemente bem alinhadas, extraídas do YouTube. Com mais de 3000 horas de vídeos abrangendo mais de 25 línguas de sinais, o YouTube-SL-25 é a) mais de 3 vezes maior que o YouTube-ASL, b) o maior conjunto de dados paralelos de língua de sinais até o momento, e c) o primeiro ou maior conjunto de dados paralelos para muitas de suas línguas componentes. Nós fornecemos bases para tarefas de sinal para texto utilizando um modelo unificado multilíngue de multitarefa baseado no T5 e relatamos pontuações em benchmarks em 4 línguas de sinais. Os resultados demonstram que a transferência multilíngue beneficia tanto línguas de sinais com mais recursos quanto as com menos recursos dentro do YouTube-SL-25.
English
Even for better-studied sign languages like American Sign Language (ASL), data is the bottleneck for machine learning research. The situation is worse yet for the many other sign languages used by Deaf/Hard of Hearing communities around the world. In this paper, we present YouTube-SL-25, a large-scale, open-domain multilingual corpus of sign language videos with seemingly well-aligned captions drawn from YouTube. With >3000 hours of videos across >25 sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest parallel sign language dataset to date, and c) the first or largest parallel dataset for many of its component languages. We provide baselines for sign-to-text tasks using a unified multilingual multitask model based on T5 and report scores on benchmarks across 4 sign languages. The results demonstrate that multilingual transfer benefits both higher- and lower-resource sign languages within YouTube-SL-25.
PDF104November 28, 2024