ChatPaper.aiChatPaper

YouTube-SL-25: 大規模なオープンドメイン多言語手話並列コーパス

YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

July 15, 2024
著者: Garrett Tanzer, Biao Zhang
cs.AI

要旨

アメリカ手話(ASL)のようなより研究が進んでいる手話であっても、機械学習研究にとってデータがボトルネックとなっています。この状況は、世界中のろう者・難聴者コミュニティで使用されている他の多くの手話言語においてさらに深刻です。本論文では、YouTubeから収集した、一見よく整列したキャプション付きの大規模なオープンドメイン多言語手話動画コーパスであるYouTube-SL-25を紹介します。25以上の手話言語にわたる3000時間以上の動画を収録したYouTube-SL-25は、a) YouTube-ASLの3倍以上の規模、b) これまでで最大の並列手話データセット、c) 多くの構成言語において初めてまたは最大の並列データセットです。我々は、T5に基づく統一された多言語マルチタスクモデルを使用して手話からテキストへのタスクのベースラインを提供し、4つの手話言語にわたるベンチマークでのスコアを報告します。結果は、YouTube-SL-25内の高リソースおよび低リソースの手話言語の両方において、多言語転移が有益であることを示しています。
English
Even for better-studied sign languages like American Sign Language (ASL), data is the bottleneck for machine learning research. The situation is worse yet for the many other sign languages used by Deaf/Hard of Hearing communities around the world. In this paper, we present YouTube-SL-25, a large-scale, open-domain multilingual corpus of sign language videos with seemingly well-aligned captions drawn from YouTube. With >3000 hours of videos across >25 sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest parallel sign language dataset to date, and c) the first or largest parallel dataset for many of its component languages. We provide baselines for sign-to-text tasks using a unified multilingual multitask model based on T5 and report scores on benchmarks across 4 sign languages. The results demonstrate that multilingual transfer benefits both higher- and lower-resource sign languages within YouTube-SL-25.

Summary

AI-Generated Summary

PDF94November 28, 2024