Catwalk: Un Marco Unificado de Evaluación de Modelos de Lenguaje para Múltiples Conjuntos de Datos
Catwalk: A Unified Language Model Evaluation Framework for Many Datasets
December 15, 2023
Autores: Dirk Groeneveld, Anas Awadalla, Iz Beltagy, Akshita Bhagia, Ian Magnusson, Hao Peng, Oyvind Tafjord, Pete Walsh, Kyle Richardson, Jesse Dodge
cs.AI
Resumen
El éxito de los modelos de lenguaje de gran escala ha transformado los paradigmas de evaluación en el procesamiento del lenguaje natural (PLN). El interés de la comunidad se ha desplazado hacia la comparación de modelos de PLN en múltiples tareas, dominios y conjuntos de datos, a menudo a una escala extrema. Esto impone nuevos desafíos de ingeniería: los esfuerzos en la construcción de conjuntos de datos y modelos han estado fragmentados, y sus formatos e interfaces son incompatibles. Como resultado, a menudo se requieren esfuerzos extensos de (re)implementación para realizar comparaciones justas y controladas a gran escala.
Catwalk busca abordar estos problemas. Catwalk proporciona una interfaz unificada para una amplia gama de conjuntos de datos y modelos de PLN existentes, que van desde el entrenamiento supervisado canónico y el ajuste fino, hasta paradigmas más modernos como el aprendizaje en contexto. Sus abstracciones cuidadosamente diseñadas permiten extensiones fáciles a muchos otros. Catwalk reduce sustancialmente las barreras para realizar experimentos controlados a gran escala. Por ejemplo, ajustamos y evaluamos más de 64 modelos en más de 86 conjuntos de datos con un solo comando, sin escribir ningún código. Mantenido por el equipo de AllenNLP en el Instituto Allen de Inteligencia Artificial (AI2), Catwalk es un esfuerzo de código abierto en curso: https://github.com/allenai/catwalk.
English
The success of large language models has shifted the evaluation paradigms in
natural language processing (NLP). The community's interest has drifted towards
comparing NLP models across many tasks, domains, and datasets, often at an
extreme scale. This imposes new engineering challenges: efforts in constructing
datasets and models have been fragmented, and their formats and interfaces are
incompatible. As a result, it often takes extensive (re)implementation efforts
to make fair and controlled comparisons at scale.
Catwalk aims to address these issues. Catwalk provides a unified interface to
a broad range of existing NLP datasets and models, ranging from both canonical
supervised training and fine-tuning, to more modern paradigms like in-context
learning. Its carefully-designed abstractions allow for easy extensions to many
others. Catwalk substantially lowers the barriers to conducting controlled
experiments at scale. For example, we finetuned and evaluated over 64 models on
over 86 datasets with a single command, without writing any code. Maintained by
the AllenNLP team at the Allen Institute for Artificial Intelligence (AI2),
Catwalk is an ongoing open-source effort: https://github.com/allenai/catwalk.