Hoe Ver Kunnen Kamelen Gaan? Onderzoek naar de Stand van Instructieafstemming op Open Bronnen
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
June 7, 2023
Auteurs: Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi
cs.AI
Samenvatting
In dit werk onderzoeken we recente vooruitgang in het instructie-afstemmen van taalmodelen op een reeks open datasets voor instructievolging. Ondanks recente beweringen dat open modellen gelijkwaardig kunnen zijn aan state-of-the-art propriëtaire modellen, gaan deze beweringen vaak gepaard met beperkte evaluatie, waardoor het moeilijk is om modellen breed te vergelijken en de bruikbaarheid van verschillende bronnen te bepalen. Wij bieden een grote set instructie-afgestemde modellen aan, variërend van 6,7B tot 65B parameters, getraind op 12 instructiedatasets die variëren van handmatig samengestelde (bijv. OpenAssistant) tot synthetische en gedistilleerde (bijv. Alpaca), en evalueren deze systematisch op hun feitelijke kennis, redeneervermogen, meertaligheid, programmeervaardigheden en vermogen om open instructies te volgen via een verzameling automatische, modelgebaseerde en menselijke evaluatiemethoden. We introduceren verder T\"ulu, onze best presterende suite van instructie-afgestemde modellen, afgestemd op een combinatie van hoogwaardige open bronnen.
Onze experimenten tonen aan dat verschillende instructie-afstemmingsdatasets specifieke vaardigheden kunnen onthullen of verbeteren, terwijl geen enkele dataset (of combinatie) de beste prestaties levert in alle evaluaties. Interessant genoeg vinden we dat evaluaties gebaseerd op model- en menselijke voorkeuren geen weerspiegeling bieden van de verschillen in modelcapaciteiten die worden blootgelegd door benchmarkgebaseerde evaluaties, wat de noodzaak suggereert van het type systemische evaluatie dat in dit werk wordt uitgevoerd. Onze evaluaties laten zien dat het beste model in een bepaalde evaluatie gemiddeld 83% van de prestaties van ChatGPT en 68% van de prestaties van GPT-4 bereikt, wat suggereert dat verdere investeringen in het bouwen van betere basismodellen en instructie-afstemmingsdata nodig zijn om de kloof te dichten. We geven onze instructie-afgestemde modellen vrij, inclusief een volledig afgestemd 65B T\"ulu-model, samen met onze code, data en evaluatieraamwerk op https://github.com/allenai/open-instruct om toekomstig onderzoek te faciliteren.
English
In this work we explore recent advances in instruction-tuning language models
on a range of open instruction-following datasets. Despite recent claims that
open models can be on par with state-of-the-art proprietary models, these
claims are often accompanied by limited evaluation, making it difficult to
compare models across the board and determine the utility of various resources.
We provide a large set of instruction-tuned models from 6.7B to 65B parameters
in size, trained on 12 instruction datasets ranging from manually curated
(e.g., OpenAssistant) to synthetic and distilled (e.g., Alpaca) and
systematically evaluate them on their factual knowledge, reasoning,
multilinguality, coding, and open-ended instruction following abilities through
a collection of automatic, model-based, and human-based metrics. We further
introduce T\"ulu, our best performing instruction-tuned model suite finetuned
on a combination of high-quality open resources.
Our experiments show that different instruction-tuning datasets can uncover
or enhance specific skills, while no single dataset (or combination) provides
the best performance across all evaluations. Interestingly, we find that model
and human preference-based evaluations fail to reflect differences in model
capabilities exposed by benchmark-based evaluations, suggesting the need for
the type of systemic evaluation performed in this work. Our evaluations show
that the best model in any given evaluation reaches on average 83% of ChatGPT
performance, and 68% of GPT-4 performance, suggesting that further investment
in building better base models and instruction-tuning data is required to close
the gap. We release our instruction-tuned models, including a fully finetuned
65B T\"ulu, along with our code, data, and evaluation framework at
https://github.com/allenai/open-instruct to facilitate future research.