Минимальная настройка для разблокировки длинного вывода от LLM с высококачественными данными в качестве ключа.
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key
October 14, 2024
Авторы: Yingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao
cs.AI
Аннотация
Поскольку большие языковые модели быстро развиваются для поддержки более длинного контекста, имеется заметное расхождение в их способности генерировать вывод большей длины. Недавнее исследование предполагает, что основная причина этого дисбаланса может возникать из-за недостатка данных с длинным выводом во время выравнивания обучения. С учетом этого наблюдения предпринимаются попытки повторного выравнивания базовых моделей с данными, которые заполняют этот пробел, что приводит к моделям способным генерировать длинный вывод по инструкции. В данной статье мы исследуем влияние качества данных на настройку модели для длинного вывода, а также возможность сделать это с точки зрения начальных точек моделей, выравненных с человеком (инструкциями или чатом). С тщательной кураторской работой с данными мы показываем, что возможно достичь аналогичного улучшения производительности в наших настроенных моделях, используя лишь небольшую часть обучающих данных и вычислений. Кроме того, мы оцениваем обобщаемость таких подходов, применяя наши методы настройки к нескольким моделям. Наши результаты подтверждают, что, хотя возможности генерации длинного вывода различаются у разных моделей изначально, наш подход к настройке их с использованием качественных данных с небольшими вычислениями последовательно приводит к значительному улучшению на всех моделях, на которых мы экспериментировали. Мы опубликовали нашу отобранную базу данных для настройки возможности длинного письма, реализации настройки и оценки модели, а также настроенные модели, к которым можно свободно получить доступ.
English
As large language models rapidly evolve to support longer context, there is a
notable disparity in their capability to generate output at greater lengths.
Recent study suggests that the primary cause for this imbalance may arise from
the lack of data with long-output during alignment training. In light of this
observation, attempts are made to re-align foundation models with data that
fills the gap, which result in models capable of generating lengthy output when
instructed. In this paper, we explore the impact of data-quality in tuning a
model for long output, and the possibility of doing so from the starting points
of human-aligned (instruct or chat) models. With careful data curation, we show
that it possible to achieve similar performance improvement in our tuned
models, with only a small fraction of training data instances and compute. In
addition, we assess the generalizability of such approaches by applying our
tuning-recipes to several models. our findings suggest that, while capacities
for generating long output vary across different models out-of-the-box, our
approach to tune them with high-quality data using lite compute, consistently
yields notable improvement across all models we experimented on. We have made
public our curated dataset for tuning long-writing capability, the
implementations of model tuning and evaluation, as well as the fine-tuned
models, all of which can be openly-accessed.Summary
AI-Generated Summary