¿Hasta dónde pueden llegar los camellos? Explorando el estado del ajuste por instrucciones en recursos abiertos
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
June 7, 2023
Autores: Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi
cs.AI
Resumen
En este trabajo exploramos los avances recientes en el ajuste por instrucción de modelos de lenguaje en una variedad de conjuntos de datos abiertos de seguimiento de instrucciones. A pesar de las afirmaciones recientes de que los modelos abiertos pueden estar a la par con los modelos propietarios de última generación, estas afirmaciones suelen ir acompañadas de evaluaciones limitadas, lo que dificulta la comparación exhaustiva de los modelos y la determinación de la utilidad de diversos recursos. Proporcionamos un amplio conjunto de modelos ajustados por instrucciones que van desde 6.7B hasta 65B parámetros, entrenados en 12 conjuntos de datos de instrucciones que van desde datos curados manualmente (por ejemplo, OpenAssistant) hasta datos sintéticos y destilados (por ejemplo, Alpaca), y los evaluamos sistemáticamente en su conocimiento factual, razonamiento, multilingüismo, codificación y habilidades de seguimiento de instrucciones abiertas mediante una colección de métricas automáticas, basadas en modelos y humanas. Además, presentamos T\"ulu, nuestra suite de modelos ajustados por instrucciones de mejor rendimiento, afinada en una combinación de recursos abiertos de alta calidad.
Nuestros experimentos muestran que diferentes conjuntos de datos de ajuste por instrucciones pueden descubrir o mejorar habilidades específicas, mientras que ningún conjunto de datos individual (o combinación) proporciona el mejor rendimiento en todas las evaluaciones. Curiosamente, encontramos que las evaluaciones basadas en preferencias de modelos y humanos no reflejan las diferencias en las capacidades de los modelos expuestas por las evaluaciones basadas en benchmarks, lo que sugiere la necesidad del tipo de evaluación sistémica realizada en este trabajo. Nuestras evaluaciones muestran que el mejor modelo en cualquier evaluación dada alcanza en promedio el 83% del rendimiento de ChatGPT y el 68% del rendimiento de GPT-4, lo que sugiere que se requiere una mayor inversión en la construcción de mejores modelos base y datos de ajuste por instrucciones para cerrar la brecha. Publicamos nuestros modelos ajustados por instrucciones, incluido un T\"ulu de 65B completamente afinado, junto con nuestro código, datos y marco de evaluación en https://github.com/allenai/open-instruct para facilitar futuras investigaciones.
English
In this work we explore recent advances in instruction-tuning language models
on a range of open instruction-following datasets. Despite recent claims that
open models can be on par with state-of-the-art proprietary models, these
claims are often accompanied by limited evaluation, making it difficult to
compare models across the board and determine the utility of various resources.
We provide a large set of instruction-tuned models from 6.7B to 65B parameters
in size, trained on 12 instruction datasets ranging from manually curated
(e.g., OpenAssistant) to synthetic and distilled (e.g., Alpaca) and
systematically evaluate them on their factual knowledge, reasoning,
multilinguality, coding, and open-ended instruction following abilities through
a collection of automatic, model-based, and human-based metrics. We further
introduce T\"ulu, our best performing instruction-tuned model suite finetuned
on a combination of high-quality open resources.
Our experiments show that different instruction-tuning datasets can uncover
or enhance specific skills, while no single dataset (or combination) provides
the best performance across all evaluations. Interestingly, we find that model
and human preference-based evaluations fail to reflect differences in model
capabilities exposed by benchmark-based evaluations, suggesting the need for
the type of systemic evaluation performed in this work. Our evaluations show
that the best model in any given evaluation reaches on average 83% of ChatGPT
performance, and 68% of GPT-4 performance, suggesting that further investment
in building better base models and instruction-tuning data is required to close
the gap. We release our instruction-tuned models, including a fully finetuned
65B T\"ulu, along with our code, data, and evaluation framework at
https://github.com/allenai/open-instruct to facilitate future research.