캣워크: 다중 데이터셋을 위한 통합 언어 모델 평가 프레임워크
Catwalk: A Unified Language Model Evaluation Framework for Many Datasets
December 15, 2023
저자: Dirk Groeneveld, Anas Awadalla, Iz Beltagy, Akshita Bhagia, Ian Magnusson, Hao Peng, Oyvind Tafjord, Pete Walsh, Kyle Richardson, Jesse Dodge
cs.AI
초록
대규모 언어 모델의 성공은 자연어 처리(NLP) 분야의 평가 패러다임을 변화시켰다. 이제 학계의 관심은 다양한 작업, 도메인, 데이터셋에 걸쳐 NLP 모델을 비교하는 데로 옮겨갔으며, 종종 극단적인 규모로 이루어진다. 이는 새로운 엔지니어링적 도전을 야기한다: 데이터셋과 모델 구축 노력이 분산되어 있으며, 그 형식과 인터페이스가 호환되지 않는다. 결과적으로, 공정하고 통제된 대규모 비교를 수행하기 위해서는 상당한 (재)구현 노력이 필요하다.
Catwalk는 이러한 문제를 해결하기 위해 설계되었다. Catwalk는 기존의 다양한 NLP 데이터셋과 모델에 대한 통합 인터페이스를 제공하며, 전통적인 지도 학습 및 미세 조정부터 최근의 인-컨텍스트 학습과 같은 현대적 패러다임까지 포괄한다. 신중하게 설계된 추상화를 통해 다른 많은 모델과 데이터셋으로의 확장이 용이하다. Catwalk는 대규모 통제 실험을 수행하는 데 필요한 장벽을 크게 낮춘다. 예를 들어, 단일 명령어로 86개 이상의 데이터셋에서 64개 이상의 모델을 미세 조정하고 평가할 수 있으며, 코드 작성 없이도 가능하다. Allen Institute for Artificial Intelligence(AI2)의 AllenNLP 팀이 유지 관리하는 Catwalk는 지속적인 오픈소스 프로젝트이다: https://github.com/allenai/catwalk.
English
The success of large language models has shifted the evaluation paradigms in
natural language processing (NLP). The community's interest has drifted towards
comparing NLP models across many tasks, domains, and datasets, often at an
extreme scale. This imposes new engineering challenges: efforts in constructing
datasets and models have been fragmented, and their formats and interfaces are
incompatible. As a result, it often takes extensive (re)implementation efforts
to make fair and controlled comparisons at scale.
Catwalk aims to address these issues. Catwalk provides a unified interface to
a broad range of existing NLP datasets and models, ranging from both canonical
supervised training and fine-tuning, to more modern paradigms like in-context
learning. Its carefully-designed abstractions allow for easy extensions to many
others. Catwalk substantially lowers the barriers to conducting controlled
experiments at scale. For example, we finetuned and evaluated over 64 models on
over 86 datasets with a single command, without writing any code. Maintained by
the AllenNLP team at the Allen Institute for Artificial Intelligence (AI2),
Catwalk is an ongoing open-source effort: https://github.com/allenai/catwalk.