Jusqu'où les chameaux peuvent-ils aller ? Exploration de l'état de l'affinement par instruction sur les ressources ouvertes
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
June 7, 2023
Auteurs: Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi
cs.AI
Résumé
Dans ce travail, nous explorons les avancées récentes dans le réglage par instruction de modèles de langage sur une gamme de jeux de données ouverts de suivi d'instructions. Malgré les affirmations récentes selon lesquelles les modèles ouverts peuvent rivaliser avec les modèles propriétaires de pointe, ces affirmations sont souvent accompagnées d'évaluations limitées, rendant difficile la comparaison globale des modèles et la détermination de l'utilité des différentes ressources. Nous proposons un large ensemble de modèles réglés par instruction, allant de 6,7 milliards à 65 milliards de paramètres, entraînés sur 12 jeux de données d'instructions allant de données manuellement curées (par exemple, OpenAssistant) à des données synthétiques et distillées (par exemple, Alpaca), et nous les évaluons systématiquement sur leurs connaissances factuelles, leur raisonnement, leur multilinguisme, leur capacité en programmation et leur aptitude à suivre des instructions ouvertes à travers une collection de métriques automatiques, basées sur des modèles et humaines. Nous introduisons en outre T\"ulu, notre suite de modèles réglés par instruction la plus performante, affinée sur une combinaison de ressources ouvertes de haute qualité.
Nos expériences montrent que différents jeux de données de réglage par instruction peuvent révéler ou améliorer des compétences spécifiques, tandis qu'aucun jeu de données unique (ou combinaison) ne fournit les meilleures performances dans toutes les évaluations. Fait intéressant, nous constatons que les évaluations basées sur les préférences des modèles et des humains ne reflètent pas les différences de capacités des modèles révélées par les évaluations basées sur des benchmarks, suggérant la nécessité du type d'évaluation systémique réalisée dans ce travail. Nos évaluations montrent que le meilleur modèle dans une évaluation donnée atteint en moyenne 83 % des performances de ChatGPT et 68 % des performances de GPT-4, suggérant qu'un investissement supplémentaire dans la construction de meilleurs modèles de base et de données de réglage par instruction est nécessaire pour combler l'écart. Nous publions nos modèles réglés par instruction, y compris un T\"ulu 65B entièrement affiné, ainsi que notre code, nos données et notre cadre d'évaluation à l'adresse https://github.com/allenai/open-instruct pour faciliter les recherches futures.
English
In this work we explore recent advances in instruction-tuning language models
on a range of open instruction-following datasets. Despite recent claims that
open models can be on par with state-of-the-art proprietary models, these
claims are often accompanied by limited evaluation, making it difficult to
compare models across the board and determine the utility of various resources.
We provide a large set of instruction-tuned models from 6.7B to 65B parameters
in size, trained on 12 instruction datasets ranging from manually curated
(e.g., OpenAssistant) to synthetic and distilled (e.g., Alpaca) and
systematically evaluate them on their factual knowledge, reasoning,
multilinguality, coding, and open-ended instruction following abilities through
a collection of automatic, model-based, and human-based metrics. We further
introduce T\"ulu, our best performing instruction-tuned model suite finetuned
on a combination of high-quality open resources.
Our experiments show that different instruction-tuning datasets can uncover
or enhance specific skills, while no single dataset (or combination) provides
the best performance across all evaluations. Interestingly, we find that model
and human preference-based evaluations fail to reflect differences in model
capabilities exposed by benchmark-based evaluations, suggesting the need for
the type of systemic evaluation performed in this work. Our evaluations show
that the best model in any given evaluation reaches on average 83% of ChatGPT
performance, and 68% of GPT-4 performance, suggesting that further investment
in building better base models and instruction-tuning data is required to close
the gap. We release our instruction-tuned models, including a fully finetuned
65B T\"ulu, along with our code, data, and evaluation framework at
https://github.com/allenai/open-instruct to facilitate future research.