ChatPaper.aiChatPaper

MIG: 意味空間における情報ゲイン最大化による指示チューニングのための自動データ選択

MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space

April 18, 2025
著者: Yicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen
cs.AI

要旨

データの品質と多様性は、効果的な指示チューニングデータセットの構築において重要な要素です。オープンソースの指示チューニングデータセットが増えている中、大量のデータから高品質で多様なサブセットを自動的に選択することが有利です。既存の手法では、通常インスタンスの品質を優先し、多様性を維持するためにヒューリスティックなルールを使用します。しかし、コレクション全体を包括的に見ることができないため、しばしば最適ではない結果が得られます。さらに、ヒューリスティックなルールは一般に埋め込み空間内の距離やクラスタリングに焦点を当てており、意味空間における複雑な指示の意図を正確に捉えることができません。このギャップを埋めるために、データセットの情報量を定量化する統一的な手法を提案します。この手法は、ラベルグラフを構築して意味空間をモデル化し、グラフ内の情報分布に基づいて多様性を定量化します。この測定に基づいて、意味空間における情報利得(MIG)を最大化するために、データサンプルを反復的に選択する効率的なサンプリング手法をさらに導入します。様々なデータセットとベースモデルでの実験により、MIGが最先端の手法を一貫して上回ることが実証されています。特に、MIGによってサンプリングされた5%のTulu3データでファインチューニングされたモデルは、フルデータセットでトレーニングされた公式のSFTモデルと同等の性能を達成し、AlpacaEvalでは+5.73%、Wildbenchでは+6.89%の改善が見られました。
English
Data quality and diversity are key to the construction of effective instruction-tuning datasets. % With the increasing availability of open-source instruction-tuning datasets, it is advantageous to automatically select high-quality and diverse subsets from a vast amount of data. % Existing methods typically prioritize instance quality and use heuristic rules to maintain diversity. % However, this absence of a comprehensive view of the entire collection often leads to suboptimal results. % Moreover, heuristic rules generally focus on distance or clustering within the embedding space, which fails to accurately capture the intent of complex instructions in the semantic space. % To bridge this gap, we propose a unified method for quantifying the information content of datasets. This method models the semantic space by constructing a label graph and quantifies diversity based on the distribution of information within the graph. % Based on such a measurement, we further introduce an efficient sampling method that selects data samples iteratively to Maximize the Information Gain (MIG) in semantic space. % Experiments on various datasets and base models demonstrate that MIG consistently outperforms state-of-the-art methods. % Notably, the model fine-tuned with 5\% Tulu3 data sampled by MIG achieves comparable performance to the official SFT model trained on the full dataset, with improvements of +5.73\% on AlpacaEval and +6.89\% on Wildbench.

Summary

AI-Generated Summary

PDF363April 21, 2025