高品質データを鍵としてLLMから長い出力を解除するための最小チューニング
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key
October 14, 2024
著者: Yingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao
cs.AI
要旨
大規模言語モデルが迅速に進化し、より長い文脈をサポートするにつれて、それらがより長い出力を生成する能力には顕著な不均衡が見られます。最近の研究によると、この不均衡の主な原因は、アラインメントトレーニング中の長い出力データの不足から生じる可能性があります。この観察に基づき、このギャップを埋めるデータで基盤モデルを再調整する試みがなされ、その結果、指示されたときに長い出力を生成できるモデルが生まれました。本論文では、長い出力のためにモデルを調整する際のデータ品質の影響と、人間によるアラインメント(指示またはチャット)モデルの出発点からその可能性について探求します。注意深いデータのキュレーションにより、われわれは、調整されたモデルで同様の性能向上を達成することが可能であり、その際にはごくわずかなトレーニングデータインスタンスと計算しか必要としません。さらに、このようなアプローチの汎用性を評価するために、私たちの調整レシピをいくつかのモデルに適用します。私たちの調査結果は、長い出力を生成する能力がモデルによって異なるものの、高品質のデータを用いて軽量な計算でそれらを調整するアプローチは、実験したすべてのモデルで一貫して顕著な改善をもたらすことを示唆しています。私たちは、長文執筆能力を調整するためのキュレーションされたデータセット、モデル調整および評価の実装、およびファインチューニングされたモデルをすべて公開しています。それらはすべてオープンにアクセス可能です。
English
As large language models rapidly evolve to support longer context, there is a
notable disparity in their capability to generate output at greater lengths.
Recent study suggests that the primary cause for this imbalance may arise from
the lack of data with long-output during alignment training. In light of this
observation, attempts are made to re-align foundation models with data that
fills the gap, which result in models capable of generating lengthy output when
instructed. In this paper, we explore the impact of data-quality in tuning a
model for long output, and the possibility of doing so from the starting points
of human-aligned (instruct or chat) models. With careful data curation, we show
that it possible to achieve similar performance improvement in our tuned
models, with only a small fraction of training data instances and compute. In
addition, we assess the generalizability of such approaches by applying our
tuning-recipes to several models. our findings suggest that, while capacities
for generating long output vary across different models out-of-the-box, our
approach to tune them with high-quality data using lite compute, consistently
yields notable improvement across all models we experimented on. We have made
public our curated dataset for tuning long-writing capability, the
implementations of model tuning and evaluation, as well as the fine-tuned
models, all of which can be openly-accessed.Summary
AI-Generated Summary