ChatPaper.aiChatPaper

キャットウォーク:多数のデータセットに対応する統合言語モデル評価フレームワーク

Catwalk: A Unified Language Model Evaluation Framework for Many Datasets

December 15, 2023
著者: Dirk Groeneveld, Anas Awadalla, Iz Beltagy, Akshita Bhagia, Ian Magnusson, Hao Peng, Oyvind Tafjord, Pete Walsh, Kyle Richardson, Jesse Dodge
cs.AI

要旨

大規模言語モデルの成功により、自然言語処理(NLP)における評価パラダイムが変化しました。コミュニティの関心は、多くのタスク、ドメイン、データセットにわたるNLPモデルの比較に向かっており、しばしば極端な規模で行われています。これにより、新たなエンジニアリング上の課題が生じています。データセットやモデルの構築に関する取り組みは断片化しており、その形式やインターフェースは互換性がありません。その結果、公平かつ制御された大規模比較を行うためには、多大な(再)実装の努力が必要となることがしばしばあります。 Catwalkはこれらの問題に対処することを目指しています。Catwalkは、従来の教師あり学習やファインチューニングから、コンテキスト内学習のようなより現代的なパラダイムまで、幅広い既存のNLPデータセットとモデルに対する統一されたインターフェースを提供します。その慎重に設計された抽象化により、他の多くのものへの容易な拡張が可能です。Catwalkは、大規模な制御実験を実施するための障壁を大幅に低減します。たとえば、64以上のモデルを86以上のデータセットでファインチューニングし、評価することを、コードを一切書かずに単一のコマンドで行うことができます。Allen Institute for Artificial Intelligence(AI2)のAllenNLPチームによってメンテナンスされているCatwalkは、継続的なオープンソースの取り組みです:https://github.com/allenai/catwalk。
English
The success of large language models has shifted the evaluation paradigms in natural language processing (NLP). The community's interest has drifted towards comparing NLP models across many tasks, domains, and datasets, often at an extreme scale. This imposes new engineering challenges: efforts in constructing datasets and models have been fragmented, and their formats and interfaces are incompatible. As a result, it often takes extensive (re)implementation efforts to make fair and controlled comparisons at scale. Catwalk aims to address these issues. Catwalk provides a unified interface to a broad range of existing NLP datasets and models, ranging from both canonical supervised training and fine-tuning, to more modern paradigms like in-context learning. Its carefully-designed abstractions allow for easy extensions to many others. Catwalk substantially lowers the barriers to conducting controlled experiments at scale. For example, we finetuned and evaluated over 64 models on over 86 datasets with a single command, without writing any code. Maintained by the AllenNLP team at the Allen Institute for Artificial Intelligence (AI2), Catwalk is an ongoing open-source effort: https://github.com/allenai/catwalk.
PDF81December 15, 2024