ChatPaper.aiChatPaper

YouTube-SL-25: Большой открытый многоязычный параллельный корпус жестового языка

YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

July 15, 2024
Авторы: Garrett Tanzer, Biao Zhang
cs.AI

Аннотация

Даже для лучше изученных языков жестов, таких как Американский язык жестов (ASL), данные являются узким местом для исследований машинного обучения. Ситуация еще хуже для многих других языков жестов, используемых глухими/слабослышащими сообществами по всему миру. В данной статье мы представляем YouTube-SL-25, крупномасштабный, открытый многоязычный корпус видеороликов на языке жестов с видимо хорошо согласованными субтитрами, взятыми с YouTube. С более чем 3000 часами видео на более чем 25 языках жестов, YouTube-SL-25 является а) более чем в 3 раза больше по размеру, чем YouTube-ASL, б) крупнейшим параллельным набором данных на языке жестов на сегодняшний день и в) первым или крупнейшим параллельным набором данных для многих из его составных языков. Мы предоставляем базовые показатели для задач перевода с языка жестов на текст с использованием унифицированной мультиязычной модели многозадачности на основе T5 и сообщаем о результатах на испытательных наборах данных по 4 языкам жестов. Результаты показывают, что мультиязычный перенос приносит пользу как более ресурсным, так и менее ресурсным языкам жестов в рамках YouTube-SL-25.
English
Even for better-studied sign languages like American Sign Language (ASL), data is the bottleneck for machine learning research. The situation is worse yet for the many other sign languages used by Deaf/Hard of Hearing communities around the world. In this paper, we present YouTube-SL-25, a large-scale, open-domain multilingual corpus of sign language videos with seemingly well-aligned captions drawn from YouTube. With >3000 hours of videos across >25 sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest parallel sign language dataset to date, and c) the first or largest parallel dataset for many of its component languages. We provide baselines for sign-to-text tasks using a unified multilingual multitask model based on T5 and report scores on benchmarks across 4 sign languages. The results demonstrate that multilingual transfer benefits both higher- and lower-resource sign languages within YouTube-SL-25.

Summary

AI-Generated Summary

PDF94November 28, 2024