XTREME-UP : Un benchmark centré utilisateur pour les langues sous-représentées avec données limitées

Résumé

La rareté des données constitue un enjeu crucial pour le développement de systèmes de traitement du langage naturel (NLP) hautement multilingues. Pourtant, pour de nombreuses langues sous-représentées (ULs) — des langues pour lesquelles la recherche en NLP est particulièrement en retard dans la satisfaction des besoins des utilisateurs — il est réalisable d'annoter de petites quantités de données. Motivés par cela, nous proposons XTREME-UP, un benchmark défini par : son accent sur le scénario de données limitées plutôt que sur le zero-shot ; son focus sur des tâches centrées sur l'utilisateur — des tâches largement adoptées par les locuteurs de langues riches en ressources ; et son attention portée aux langues sous-représentées où ce scénario de données limitées tend à être le plus réaliste. XTREME-UP évalue les capacités des modèles de langage à travers 88 langues sous-représentées sur 9 technologies clés centrées sur l'utilisateur, incluant la reconnaissance automatique de la parole (ASR), la reconnaissance optique de caractères (OCR), la traduction automatique (MT), et des tâches d'accès à l'information d'utilité générale. Nous créons de nouveaux jeux de données pour l'OCR, la saisie prédictive, l'analyse sémantique et la translittération, et nous nous appuyons sur des jeux de données existants que nous affinons pour d'autres tâches. XTREME-UP propose une méthodologie pour évaluer de nombreux scénarios de modélisation, incluant le texte seul, le multimodal (vision, audio et texte), le réglage supervisé des paramètres, et l'apprentissage en contexte. Nous évaluons les modèles couramment utilisés sur ce benchmark. Nous mettons à disposition tout le code et les scripts pour entraîner et évaluer les modèles.

English

Data scarcity is a crucial issue for the development of highly multilingual NLP systems. Yet for many under-represented languages (ULs) -- languages for which NLP re-search is particularly far behind in meeting user needs -- it is feasible to annotate small amounts of data. Motivated by this, we propose XTREME-UP, a benchmark defined by: its focus on the scarce-data scenario rather than zero-shot; its focus on user-centric tasks -- tasks with broad adoption by speakers of high-resource languages; and its focus on under-represented languages where this scarce-data scenario tends to be most realistic. XTREME-UP evaluates the capabilities of language models across 88 under-represented languages over 9 key user-centric technologies including ASR, OCR, MT, and information access tasks that are of general utility. We create new datasets for OCR, autocomplete, semantic parsing, and transliteration, and build on and refine existing datasets for other tasks. XTREME-UP provides methodology for evaluating many modeling scenarios including text-only, multi-modal (vision, audio, and text),supervised parameter tuning, and in-context learning. We evaluate commonly used models on the benchmark. We release all code and scripts to train and evaluate models

XTREME-UP : Un benchmark centré utilisateur pour les langues sous-représentées avec données limitées

XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages

Résumé

Support