同源モデルのガイダンスと文脈的認識の測定を通じて、長い文脈の整合性のための影響力のあるサンプルを選択する
Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement
October 21, 2024
著者: Shuzheng Si, Haozhe Zhao, Gang Chen, Yunshui Li, Kangyang Luo, Chuancheng Lv, Kaikai An, Fanchao Qi, Baobao Chang, Maosong Sun
cs.AI
要旨
大規模言語モデルを拡張して、極めて長い文脈を持つ指示を効果的に処理するための研究はまだ完全に調査されていません。主な障害は、長い文脈の整合性のために設計された高品質な長い指示に従うデータセットを構築することにあります。既存の研究では、利用可能なデータ量を増やすために長い指示に従うサンプルを合成する試みがなされてきました。しかし、データの量を定義された戦略なしに無差別に増やすことは、データの品質を確保するための戦略がない場合、低品質なサンプルを導入し、最終的な性能を制限する可能性があります。このギャップを埋めるために、我々は長い文脈の整合性という特有の課題、つまり指示の処理と長い入力文脈のための長距離依存関係をモデリングすることを目指しています。我々は、GATEAUという新しいフレームワークを提案します。このフレームワークは、Homologous Models' Guidance(HMG)とContextual Awareness Measurement(CAM)を利用して、長距離依存関係で豊かな影響力と高品質のサンプルを特定するよう設計されています。具体的には、HMGは、異なる文脈ウィンドウを持つ2つの同系モデルからの応答の困難さを測定し、長距離依存関係による対応する応答の難しさを評価します。また、CAMの役割は、モデルの注意が重要なセグメントに集中しているかどうかを評価することで、長い入力文脈の理解の困難さを測定することです。提案された両方の方法に基づいて、我々は最も難解なサンプルを影響力のあるデータとして選択し、長距離依存関係を効果的に構築することで、LLMの性能を向上させることを目指しています。包括的な実験により、GATEAUは長距離依存関係で豊かなサンプルを効果的に特定し、これらの選択されたサンプルで訓練されたモデルは、指示に従う能力と長い文脈を理解する能力が向上していることが示されています。
English
The expansion of large language models to effectively handle instructions
with extremely long contexts has yet to be fully investigated. The primary
obstacle lies in constructing a high-quality long instruction-following dataset
devised for long context alignment. Existing studies have attempted to scale up
the available data volume by synthesizing long instruction-following samples.
However, indiscriminately increasing the quantity of data without a
well-defined strategy for ensuring data quality may introduce low-quality
samples and restrict the final performance. To bridge this gap, we aim to
address the unique challenge of long-context alignment, i.e., modeling the
long-range dependencies for handling instructions and lengthy input contexts.
We propose GATEAU, a novel framework designed to identify the influential and
high-quality samples enriched with long-range dependency relations by utilizing
crafted Homologous Models' Guidance (HMG) and Contextual Awareness Measurement
(CAM). Specifically, HMG attempts to measure the difficulty of generating
corresponding responses due to the long-range dependencies, using the
perplexity scores of the response from two homologous models with different
context windows. Also, the role of CAM is to measure the difficulty of
understanding the long input contexts due to long-range dependencies by
evaluating whether the model's attention is focused on important segments.
Built upon both proposed methods, we select the most challenging samples as the
influential data to effectively frame the long-range dependencies, thereby
achieving better performance of LLMs. Comprehensive experiments indicate that
GATEAU effectively identifies samples enriched with long-range dependency
relations and the model trained on these selected samples exhibits better
instruction-following and long-context understanding capabilities.Summary
AI-Generated Summary