Até Onde os Camelos Podem Ir? Explorando o Estado do Ajuste Fino de Instruções em Recursos Abertos
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
June 7, 2023
Autores: Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi
cs.AI
Resumo
Neste trabalho, exploramos os avanços recentes no ajuste fino de modelos de linguagem para seguir instruções, utilizando uma variedade de conjuntos de dados abertos. Apesar das alegações recentes de que modelos abertos podem ser equivalentes aos modelos proprietários de última geração, essas afirmações são frequentemente acompanhadas por avaliações limitadas, tornando difícil comparar os modelos de forma abrangente e determinar a utilidade de vários recursos. Fornecemos um amplo conjunto de modelos ajustados para seguir instruções, variando de 6,7B a 65B parâmetros, treinados em 12 conjuntos de dados de instruções que vão desde dados manualmente curados (por exemplo, OpenAssistant) até dados sintéticos e destilados (por exemplo, Alpaca), e os avaliamos sistematicamente em relação ao seu conhecimento factual, raciocínio, multilinguismo, codificação e habilidades de seguir instruções abertas, por meio de uma coleção de métricas automáticas, baseadas em modelos e humanas. Além disso, apresentamos T\"ulu, nosso conjunto de modelos ajustados para seguir instruções com melhor desempenho, refinado em uma combinação de recursos abertos de alta qualidade.
Nossos experimentos mostram que diferentes conjuntos de dados de ajuste fino para instruções podem revelar ou aprimorar habilidades específicas, enquanto nenhum conjunto de dados único (ou combinação) oferece o melhor desempenho em todas as avaliações. Curiosamente, descobrimos que as avaliações baseadas em preferências de modelos e humanos não refletem as diferenças nas capacidades dos modelos reveladas por avaliações baseadas em benchmarks, sugerindo a necessidade do tipo de avaliação sistêmica realizada neste trabalho. Nossas avaliações mostram que o melhor modelo em qualquer avaliação específica atinge, em média, 83% do desempenho do ChatGPT e 68% do desempenho do GPT-4, indicando que mais investimentos na construção de modelos base e dados de ajuste fino para instruções são necessários para reduzir essa lacuna. Disponibilizamos nossos modelos ajustados para seguir instruções, incluindo um T\"ulu de 65B totalmente refinado, juntamente com nosso código, dados e estrutura de avaliação em https://github.com/allenai/open-instruct para facilitar pesquisas futuras.
English
In this work we explore recent advances in instruction-tuning language models
on a range of open instruction-following datasets. Despite recent claims that
open models can be on par with state-of-the-art proprietary models, these
claims are often accompanied by limited evaluation, making it difficult to
compare models across the board and determine the utility of various resources.
We provide a large set of instruction-tuned models from 6.7B to 65B parameters
in size, trained on 12 instruction datasets ranging from manually curated
(e.g., OpenAssistant) to synthetic and distilled (e.g., Alpaca) and
systematically evaluate them on their factual knowledge, reasoning,
multilinguality, coding, and open-ended instruction following abilities through
a collection of automatic, model-based, and human-based metrics. We further
introduce T\"ulu, our best performing instruction-tuned model suite finetuned
on a combination of high-quality open resources.
Our experiments show that different instruction-tuning datasets can uncover
or enhance specific skills, while no single dataset (or combination) provides
the best performance across all evaluations. Interestingly, we find that model
and human preference-based evaluations fail to reflect differences in model
capabilities exposed by benchmark-based evaluations, suggesting the need for
the type of systemic evaluation performed in this work. Our evaluations show
that the best model in any given evaluation reaches on average 83% of ChatGPT
performance, and 68% of GPT-4 performance, suggesting that further investment
in building better base models and instruction-tuning data is required to close
the gap. We release our instruction-tuned models, including a fully finetuned
65B T\"ulu, along with our code, data, and evaluation framework at
https://github.com/allenai/open-instruct to facilitate future research.