Wie weit können Kamele gehen? Eine Untersuchung des Stands der Instruction Tuning auf offenen Ressourcen
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
June 7, 2023
Autoren: Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi
cs.AI
Zusammenfassung
In dieser Arbeit untersuchen wir aktuelle Fortschritte im Instruction-Tuning von Sprachmodellen anhand einer Reihe offener Instruction-Following-Datensätze. Trotz jüngster Behauptungen, dass offene Modelle mit proprietären State-of-the-Art-Modellen gleichziehen können, werden diese Behauptungen oft nur durch begrenzte Evaluationen untermauert, was es schwierig macht, Modelle umfassend zu vergleichen und den Nutzen verschiedener Ressourcen zu bestimmen. Wir stellen eine umfangreiche Sammlung von Instruction-getunten Modellen mit einer Größe von 6,7B bis 65B Parametern bereit, die auf 12 Instruction-Datensätzen trainiert wurden, die von manuell kuratierten (z.B. OpenAssistant) bis hin zu synthetischen und destillierten (z.B. Alpaca) reichen. Diese Modelle werden systematisch hinsichtlich ihres Faktenwissens, ihrer Fähigkeit zum logischen Schlussfolgern, ihrer Mehrsprachigkeit, ihrer Programmierfähigkeiten und ihrer Fähigkeit zur offenen Instruktionsbefolgung anhand einer Sammlung automatischer, modellbasierter und menschlicher Metriken evaluiert. Darüber hinaus stellen wir T\"ulu vor, unsere leistungsstärkste Suite von Instruction-getunten Modellen, die auf einer Kombination hochwertiger offener Ressourcen feinabgestimmt wurde.
Unsere Experimente zeigen, dass verschiedene Instruction-Tuning-Datensätze spezifische Fähigkeiten aufdecken oder verbessern können, während kein einzelner Datensatz (oder eine Kombination) die beste Leistung über alle Evaluationen hinweg liefert. Interessanterweise stellen wir fest, dass modell- und präferenzbasierte Evaluationen durch Menschen die Unterschiede in den Modellfähigkeiten, die durch benchmarkbasierte Evaluationen aufgedeckt werden, nicht widerspiegeln. Dies unterstreicht die Notwendigkeit der Art von systematischer Evaluation, die in dieser Arbeit durchgeführt wird. Unsere Evaluationen zeigen, dass das beste Modell in einer gegebenen Evaluation im Durchschnitt 83 % der Leistung von ChatGPT und 68 % der Leistung von GPT-4 erreicht, was darauf hindeutet, dass weitere Investitionen in den Aufbau besserer Basismodelle und Instruction-Tuning-Daten erforderlich sind, um die Lücke zu schließen. Wir veröffentlichen unsere Instruction-getunten Modelle, einschließlich eines vollständig feinabgestimmten 65B T\"ulu, zusammen mit unserem Code, unseren Daten und unserem Evaluationsframework unter https://github.com/allenai/open-instruct, um zukünftige Forschung zu erleichtern.
English
In this work we explore recent advances in instruction-tuning language models
on a range of open instruction-following datasets. Despite recent claims that
open models can be on par with state-of-the-art proprietary models, these
claims are often accompanied by limited evaluation, making it difficult to
compare models across the board and determine the utility of various resources.
We provide a large set of instruction-tuned models from 6.7B to 65B parameters
in size, trained on 12 instruction datasets ranging from manually curated
(e.g., OpenAssistant) to synthetic and distilled (e.g., Alpaca) and
systematically evaluate them on their factual knowledge, reasoning,
multilinguality, coding, and open-ended instruction following abilities through
a collection of automatic, model-based, and human-based metrics. We further
introduce T\"ulu, our best performing instruction-tuned model suite finetuned
on a combination of high-quality open resources.
Our experiments show that different instruction-tuning datasets can uncover
or enhance specific skills, while no single dataset (or combination) provides
the best performance across all evaluations. Interestingly, we find that model
and human preference-based evaluations fail to reflect differences in model
capabilities exposed by benchmark-based evaluations, suggesting the need for
the type of systemic evaluation performed in this work. Our evaluations show
that the best model in any given evaluation reaches on average 83% of ChatGPT
performance, and 68% of GPT-4 performance, suggesting that further investment
in building better base models and instruction-tuning data is required to close
the gap. We release our instruction-tuned models, including a fully finetuned
65B T\"ulu, along with our code, data, and evaluation framework at
https://github.com/allenai/open-instruct to facilitate future research.