Catwalk: Унифицированная структура для оценки языковых моделей на множестве наборов данных
Catwalk: A Unified Language Model Evaluation Framework for Many Datasets
December 15, 2023
Авторы: Dirk Groeneveld, Anas Awadalla, Iz Beltagy, Akshita Bhagia, Ian Magnusson, Hao Peng, Oyvind Tafjord, Pete Walsh, Kyle Richardson, Jesse Dodge
cs.AI
Аннотация
Успех крупных языковых моделей изменил парадигмы оценки в области обработки естественного языка (NLP). Интерес сообщества сместился в сторону сравнения моделей NLP на множестве задач, доменов и наборов данных, часто в экстремальных масштабах. Это создает новые инженерные вызовы: усилия по созданию наборов данных и моделей были разрозненными, а их форматы и интерфейсы несовместимы. В результате для проведения справедливых и контролируемых сравнений в масштабе часто требуются значительные усилия по (пере)реализации.
Catwalk призван решить эти проблемы. Catwalk предоставляет унифицированный интерфейс для широкого спектра существующих наборов данных и моделей NLP, начиная от классического обучения с учителем и тонкой настройки до более современных подходов, таких как обучение в контексте. Его тщательно разработанные абстракции позволяют легко расширять функциональность для многих других задач. Catwalk существенно снижает барьеры для проведения контролируемых экспериментов в масштабе. Например, мы выполнили тонкую настройку и оценку более 64 моделей на более чем 86 наборах данных с помощью одной команды, не написав ни строчки кода. Разрабатываемый командой AllenNLP в Allen Institute for Artificial Intelligence (AI2), Catwalk является продолжающимся проектом с открытым исходным кодом: https://github.com/allenai/catwalk.
English
The success of large language models has shifted the evaluation paradigms in
natural language processing (NLP). The community's interest has drifted towards
comparing NLP models across many tasks, domains, and datasets, often at an
extreme scale. This imposes new engineering challenges: efforts in constructing
datasets and models have been fragmented, and their formats and interfaces are
incompatible. As a result, it often takes extensive (re)implementation efforts
to make fair and controlled comparisons at scale.
Catwalk aims to address these issues. Catwalk provides a unified interface to
a broad range of existing NLP datasets and models, ranging from both canonical
supervised training and fine-tuning, to more modern paradigms like in-context
learning. Its carefully-designed abstractions allow for easy extensions to many
others. Catwalk substantially lowers the barriers to conducting controlled
experiments at scale. For example, we finetuned and evaluated over 64 models on
over 86 datasets with a single command, without writing any code. Maintained by
the AllenNLP team at the Allen Institute for Artificial Intelligence (AI2),
Catwalk is an ongoing open-source effort: https://github.com/allenai/catwalk.