ChatPaper.aiChatPaper

Catwalk : Un cadre d'évaluation unifié de modèles de langage pour de nombreux jeux de données

Catwalk: A Unified Language Model Evaluation Framework for Many Datasets

December 15, 2023
Auteurs: Dirk Groeneveld, Anas Awadalla, Iz Beltagy, Akshita Bhagia, Ian Magnusson, Hao Peng, Oyvind Tafjord, Pete Walsh, Kyle Richardson, Jesse Dodge
cs.AI

Résumé

Le succès des grands modèles de langage a redéfini les paradigmes d'évaluation en traitement automatique du langage naturel (TALN). L'intérêt de la communauté s'est progressivement orienté vers la comparaison des modèles de TALN sur de nombreuses tâches, domaines et jeux de données, souvent à une échelle extrême. Cela impose de nouveaux défis techniques : les efforts de construction des jeux de données et des modèles ont été fragmentés, et leurs formats et interfaces sont incompatibles. Par conséquent, il est souvent nécessaire de consacrer des efforts considérables de (ré)implémentation pour réaliser des comparaisons équitables et contrôlées à grande échelle. Catwalk vise à résoudre ces problèmes. Catwalk propose une interface unifiée pour un large éventail de jeux de données et de modèles de TALN existants, allant de l'apprentissage supervisé canonique et du réglage fin, à des paradigmes plus modernes comme l'apprentissage en contexte. Ses abstractions soigneusement conçues permettent des extensions faciles à de nombreux autres cas. Catwalk réduit considérablement les obstacles à la réalisation d'expériences contrôlées à grande échelle. Par exemple, nous avons effectué le réglage fin et l'évaluation de plus de 64 modèles sur plus de 86 jeux de données avec une seule commande, sans écrire de code. Maintenu par l'équipe AllenNLP de l'Allen Institute for Artificial Intelligence (AI2), Catwalk est un projet open-source en cours : https://github.com/allenai/catwalk.
English
The success of large language models has shifted the evaluation paradigms in natural language processing (NLP). The community's interest has drifted towards comparing NLP models across many tasks, domains, and datasets, often at an extreme scale. This imposes new engineering challenges: efforts in constructing datasets and models have been fragmented, and their formats and interfaces are incompatible. As a result, it often takes extensive (re)implementation efforts to make fair and controlled comparisons at scale. Catwalk aims to address these issues. Catwalk provides a unified interface to a broad range of existing NLP datasets and models, ranging from both canonical supervised training and fine-tuning, to more modern paradigms like in-context learning. Its carefully-designed abstractions allow for easy extensions to many others. Catwalk substantially lowers the barriers to conducting controlled experiments at scale. For example, we finetuned and evaluated over 64 models on over 86 datasets with a single command, without writing any code. Maintained by the AllenNLP team at the Allen Institute for Artificial Intelligence (AI2), Catwalk is an ongoing open-source effort: https://github.com/allenai/catwalk.
PDF81December 15, 2024