Catwalk: Унифицированная структура для оценки языковых моделей на множестве наборов данных

Аннотация

Успех крупных языковых моделей изменил парадигмы оценки в области обработки естественного языка (NLP). Интерес сообщества сместился в сторону сравнения моделей NLP на множестве задач, доменов и наборов данных, часто в экстремальных масштабах. Это создает новые инженерные вызовы: усилия по созданию наборов данных и моделей были разрозненными, а их форматы и интерфейсы несовместимы. В результате для проведения справедливых и контролируемых сравнений в масштабе часто требуются значительные усилия по (пере)реализации. Catwalk призван решить эти проблемы. Catwalk предоставляет унифицированный интерфейс для широкого спектра существующих наборов данных и моделей NLP, начиная от классического обучения с учителем и тонкой настройки до более современных подходов, таких как обучение в контексте. Его тщательно разработанные абстракции позволяют легко расширять функциональность для многих других задач. Catwalk существенно снижает барьеры для проведения контролируемых экспериментов в масштабе. Например, мы выполнили тонкую настройку и оценку более 64 моделей на более чем 86 наборах данных с помощью одной команды, не написав ни строчки кода. Разрабатываемый командой AllenNLP в Allen Institute for Artificial Intelligence (AI2), Catwalk является продолжающимся проектом с открытым исходным кодом: https://github.com/allenai/catwalk.

English

The success of large language models has shifted the evaluation paradigms in natural language processing (NLP). The community's interest has drifted towards comparing NLP models across many tasks, domains, and datasets, often at an extreme scale. This imposes new engineering challenges: efforts in constructing datasets and models have been fragmented, and their formats and interfaces are incompatible. As a result, it often takes extensive (re)implementation efforts to make fair and controlled comparisons at scale. Catwalk aims to address these issues. Catwalk provides a unified interface to a broad range of existing NLP datasets and models, ranging from both canonical supervised training and fine-tuning, to more modern paradigms like in-context learning. Its carefully-designed abstractions allow for easy extensions to many others. Catwalk substantially lowers the barriers to conducting controlled experiments at scale. For example, we finetuned and evaluated over 64 models on over 86 datasets with a single command, without writing any code. Maintained by the AllenNLP team at the Allen Institute for Artificial Intelligence (AI2), Catwalk is an ongoing open-source effort: https://github.com/allenai/catwalk.

Catwalk: Унифицированная структура для оценки языковых моделей на множестве наборов данных

Catwalk: A Unified Language Model Evaluation Framework for Many Datasets

Аннотация

Support