DELIFT: データ効率的な言語モデルの指示微調整
DELIFT: Data Efficient Language model Instruction Fine Tuning
November 7, 2024
著者: Ishika Agarwal, Krishna Killamsetty, Lucian Popa, Marina Danilevksy
cs.AI
要旨
大規模言語モデル(LLMs)の微調整は、特定のタスクでの性能を向上させるために不可欠ですが、冗長または情報量の少ないデータのためにリソースを多く消費することがよくあります。この非効率性に対処するために、私たちはDELIFT(Data Efficient Language model Instruction Fine-Tuning)という新しいアルゴリズムを導入しました。このアルゴリズムは、微調整の3つの主要段階(1)指示の微調整、(2)タスク固有の微調整(例:推論、質問応答)、および(3)継続的な微調整(例:新しいデータバージョンの組み込み)にわたるデータ選択を体系的に最適化します。既存の方法が単一段階の最適化に焦点を当てるか、計算量の多い勾配計算に依存するのに対し、DELIFTはすべての段階で効率的に機能します。私たちの手法の中心にあるのは、データサンプルが他のサンプルに対するモデルの応答の向上にどれだけ有益かを定量化するペアワイズ効用メトリックであり、モデルの現在の能力に対する情報価値を効果的に測定します。このメトリックに適用される異なる部分モジュラー関数を活用することで、DELIFTは、微調整のすべての段階で有用な多様で最適なサブセットを選択します。さまざまなタスクとモデルスケールでの実験は、DELIFTが性能を損なうことなく、微調整データサイズを最大70%削減でき、著しい計算上の節約を提供し、効率性と有効性の両方で既存の方法を凌駕していることを示しています。
English
Fine-tuning large language models (LLMs) is essential for enhancing their
performance on specific tasks but is often resource-intensive due to redundant
or uninformative data. To address this inefficiency, we introduce DELIFT (Data
Efficient Language model Instruction Fine-Tuning), a novel algorithm that
systematically optimizes data selection across the three key stages of
fine-tuning: (1) instruction tuning, (2) task-specific fine-tuning (e.g.,
reasoning, question-answering), and (3) continual fine-tuning (e.g.,
incorporating new data versions). Unlike existing methods that focus on
single-stage optimization or rely on computationally intensive gradient
calculations, DELIFT operates efficiently across all stages. Central to our
approach is a pairwise utility metric that quantifies how beneficial a data
sample is for improving the model's responses to other samples, effectively
measuring the informational value relative to the model's current capabilities.
By leveraging different submodular functions applied to this metric, DELIFT
selects diverse and optimal subsets that are useful across all stages of
fine-tuning. Experiments across various tasks and model scales demonstrate that
DELIFT can reduce the fine-tuning data size by up to 70% without compromising
performance, offering significant computational savings and outperforming
existing methods in both efficiency and efficacy.Summary
AI-Generated Summary