ChatPaper.aiChatPaper

YouTube-SL-25: 대규모 오픈 도메인 다국어 수화 병렬 코퍼스

YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

July 15, 2024
저자: Garrett Tanzer, Biao Zhang
cs.AI

초록

미국 수화(American Sign Language, ASL)와 같이 더 잘 연구된 수화 언어조차도 데이터는 머신러닝 연구의 병목 현상으로 남아 있습니다. 전 세계의 농/청각 장애인 커뮤니티에서 사용되는 수많은 다른 수화 언어들의 상황은 더욱 심각합니다. 본 논문에서는 YouTube에서 수집된 잘 정렬된 캡션을 포함한 대규모 오픈 도메인 다국어 수화 비디오 코퍼스인 YouTube-SL-25를 소개합니다. 25개 이상의 수화 언어에 걸쳐 3000시간 이상의 비디오를 포함하는 YouTube-SL-25는 a) YouTube-ASL보다 3배 이상 크며, b) 현재까지 가장 큰 병렬 수화 데이터셋이고, c) 포함된 많은 수화 언어들 중 최초이거나 가장 큰 병렬 데이터셋입니다. 우리는 T5 기반의 통합 다국어 다중 작업 모델을 사용하여 수화-텍스트 작업을 위한 베이스라인을 제공하고, 4개 수화 언어에 걸친 벤치마크에서의 점수를 보고합니다. 결과는 다국어 전이가 YouTube-SL-25 내에서 고자원 및 저자원 수화 언어 모두에 이점을 제공함을 보여줍니다.
English
Even for better-studied sign languages like American Sign Language (ASL), data is the bottleneck for machine learning research. The situation is worse yet for the many other sign languages used by Deaf/Hard of Hearing communities around the world. In this paper, we present YouTube-SL-25, a large-scale, open-domain multilingual corpus of sign language videos with seemingly well-aligned captions drawn from YouTube. With >3000 hours of videos across >25 sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest parallel sign language dataset to date, and c) the first or largest parallel dataset for many of its component languages. We provide baselines for sign-to-text tasks using a unified multilingual multitask model based on T5 and report scores on benchmarks across 4 sign languages. The results demonstrate that multilingual transfer benefits both higher- and lower-resource sign languages within YouTube-SL-25.
PDF94November 28, 2024