XTREME-UP : Un benchmark centré utilisateur pour les langues sous-représentées avec données limitées
XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages
May 19, 2023
Auteurs: Sebastian Ruder, Jonathan H. Clark, Alexander Gutkin, Mihir Kale, Min Ma, Massimo Nicosia, Shruti Rijhwani, Parker Riley, Jean-Michel A. Sarr, Xinyi Wang, John Wieting, Nitish Gupta, Anna Katanova, Christo Kirov, Dana L. Dickinson, Brian Roark, Bidisha Samanta, Connie Tao, David I. Adelani, Vera Axelrod, Isaac Caswell, Colin Cherry, Dan Garrette, Reeve Ingle, Melvin Johnson, Dmitry Panteleev, Partha Talukdar
cs.AI
Résumé
La rareté des données constitue un enjeu crucial pour le développement de systèmes de traitement du langage naturel (NLP) hautement multilingues. Pourtant, pour de nombreuses langues sous-représentées (ULs) — des langues pour lesquelles la recherche en NLP est particulièrement en retard dans la satisfaction des besoins des utilisateurs — il est réalisable d'annoter de petites quantités de données. Motivés par cela, nous proposons XTREME-UP, un benchmark défini par : son accent sur le scénario de données limitées plutôt que sur le zero-shot ; son focus sur des tâches centrées sur l'utilisateur — des tâches largement adoptées par les locuteurs de langues riches en ressources ; et son attention portée aux langues sous-représentées où ce scénario de données limitées tend à être le plus réaliste. XTREME-UP évalue les capacités des modèles de langage à travers 88 langues sous-représentées sur 9 technologies clés centrées sur l'utilisateur, incluant la reconnaissance automatique de la parole (ASR), la reconnaissance optique de caractères (OCR), la traduction automatique (MT), et des tâches d'accès à l'information d'utilité générale. Nous créons de nouveaux jeux de données pour l'OCR, la saisie prédictive, l'analyse sémantique et la translittération, et nous nous appuyons sur des jeux de données existants que nous affinons pour d'autres tâches. XTREME-UP propose une méthodologie pour évaluer de nombreux scénarios de modélisation, incluant le texte seul, le multimodal (vision, audio et texte), le réglage supervisé des paramètres, et l'apprentissage en contexte. Nous évaluons les modèles couramment utilisés sur ce benchmark. Nous mettons à disposition tout le code et les scripts pour entraîner et évaluer les modèles.
English
Data scarcity is a crucial issue for the development of highly multilingual
NLP systems. Yet for many under-represented languages (ULs) -- languages for
which NLP re-search is particularly far behind in meeting user needs -- it is
feasible to annotate small amounts of data. Motivated by this, we propose
XTREME-UP, a benchmark defined by: its focus on the scarce-data scenario rather
than zero-shot; its focus on user-centric tasks -- tasks with broad adoption by
speakers of high-resource languages; and its focus on under-represented
languages where this scarce-data scenario tends to be most realistic. XTREME-UP
evaluates the capabilities of language models across 88 under-represented
languages over 9 key user-centric technologies including ASR, OCR, MT, and
information access tasks that are of general utility. We create new datasets
for OCR, autocomplete, semantic parsing, and transliteration, and build on and
refine existing datasets for other tasks. XTREME-UP provides methodology for
evaluating many modeling scenarios including text-only, multi-modal (vision,
audio, and text),supervised parameter tuning, and in-context learning. We
evaluate commonly used models on the benchmark. We release all code and scripts
to train and evaluate models