Насколько далеко могут зайти верблюды? Исследование состояния тонкой настройки инструкций на открытых ресурсах
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
June 7, 2023
Авторы: Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi
cs.AI
Аннотация
В данной работе мы исследуем последние достижения в области тонкой настройки языковых моделей на выполнение инструкций с использованием ряда открытых наборов данных. Несмотря на недавние заявления о том, что открытые модели могут быть наравне с передовыми проприетарными моделями, эти утверждения часто сопровождаются ограниченной оценкой, что затрудняет всестороннее сравнение моделей и определение полезности различных ресурсов. Мы представляем большой набор моделей, настроенных на выполнение инструкций, размером от 6,7 млрд до 65 млрд параметров, обученных на 12 наборах данных, варьирующихся от вручную отобранных (например, OpenAssistant) до синтетических и дистиллированных (например, Alpaca), и систематически оцениваем их на предмет знаний, способности к рассуждению, многоязычности, программированию и выполнения открытых инструкций с использованием набора автоматических, модельных и человеческих метрик. Мы также представляем T\"ulu — наш лучший набор моделей, настроенных на выполнение инструкций, дообученных на комбинации высококачественных открытых ресурсов.
Наши эксперименты показывают, что различные наборы данных для тонкой настройки на выполнение инструкций могут раскрывать или улучшать определённые навыки, при этом ни один набор данных (или их комбинация) не обеспечивает наилучшую производительность во всех оценках. Интересно, что мы обнаружили, что оценки, основанные на предпочтениях моделей и людей, не отражают различий в возможностях моделей, выявленных с помощью бенчмарков, что подчеркивает необходимость систематической оценки, проведённой в этой работе. Наши оценки показывают, что лучшая модель в любой конкретной оценке достигает в среднем 83% производительности ChatGPT и 68% производительности GPT-4, что указывает на необходимость дальнейших инвестиций в создание более качественных базовых моделей и данных для тонкой настройки на выполнение инструкций, чтобы сократить разрыв. Мы публикуем наши модели, настроенные на выполнение инструкций, включая полностью дообученную 65-миллиардную T\"ulu, а также наш код, данные и фреймворк для оценки по адресу https://github.com/allenai/open-instruct, чтобы способствовать дальнейшим исследованиям.
English
In this work we explore recent advances in instruction-tuning language models
on a range of open instruction-following datasets. Despite recent claims that
open models can be on par with state-of-the-art proprietary models, these
claims are often accompanied by limited evaluation, making it difficult to
compare models across the board and determine the utility of various resources.
We provide a large set of instruction-tuned models from 6.7B to 65B parameters
in size, trained on 12 instruction datasets ranging from manually curated
(e.g., OpenAssistant) to synthetic and distilled (e.g., Alpaca) and
systematically evaluate them on their factual knowledge, reasoning,
multilinguality, coding, and open-ended instruction following abilities through
a collection of automatic, model-based, and human-based metrics. We further
introduce T\"ulu, our best performing instruction-tuned model suite finetuned
on a combination of high-quality open resources.
Our experiments show that different instruction-tuning datasets can uncover
or enhance specific skills, while no single dataset (or combination) provides
the best performance across all evaluations. Interestingly, we find that model
and human preference-based evaluations fail to reflect differences in model
capabilities exposed by benchmark-based evaluations, suggesting the need for
the type of systemic evaluation performed in this work. Our evaluations show
that the best model in any given evaluation reaches on average 83% of ChatGPT
performance, and 68% of GPT-4 performance, suggesting that further investment
in building better base models and instruction-tuning data is required to close
the gap. We release our instruction-tuned models, including a fully finetuned
65B T\"ulu, along with our code, data, and evaluation framework at
https://github.com/allenai/open-instruct to facilitate future research.