ChatPaper.aiChatPaper

MIG: 의미 공간에서 정보 이득을 극대화하여 지시 튜닝을 위한 데이터 자동 선택

MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space

April 18, 2025
저자: Yicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen
cs.AI

초록

데이터 품질과 다양성은 효과적인 지시 튜닝 데이터셋 구축의 핵심 요소입니다. 오픈소스 지시 튜닝 데이터셋의 가용성이 증가함에 따라, 방대한 양의 데이터에서 고품질이고 다양한 부분집합을 자동으로 선택하는 것이 유리합니다. 기존 방법들은 일반적으로 인스턴스 품질을 우선시하고 휴리스틱 규칙을 사용하여 다양성을 유지합니다. 그러나 이러한 방식은 전체 데이터셋에 대한 포괄적인 관점이 부족하여 종종 차선의 결과를 초래합니다. 또한, 휴리스틱 규칙은 일반적으로 임베딩 공간 내의 거리나 클러스터링에 초점을 맞추는데, 이는 복잡한 지시문의 의도를 의미 공간에서 정확히 포착하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 데이터셋의 정보 내용을 정량화하는 통합 방법을 제안합니다. 이 방법은 레이블 그래프를 구성하여 의미 공간을 모델링하고, 그래프 내 정보 분포를 기반으로 다양성을 정량화합니다. 이러한 측정을 바탕으로, 우리는 의미 공간에서 정보 이득(Maximize the Information Gain, MIG)을 극대화하기 위해 데이터 샘플을 반복적으로 선택하는 효율적인 샘플링 방법을 추가로 소개합니다. 다양한 데이터셋과 기본 모델에 대한 실험 결과, MIG는 최신 방법들을 지속적으로 능가하는 것으로 나타났습니다. 특히, MIG로 샘플링된 5%의 Tulu3 데이터로 미세 조정된 모델은 전체 데이터셋으로 학습된 공식 SFT 모델과 비슷한 성능을 달성하며, AlpacaEval에서 +5.73%, Wildbench에서 +6.89%의 성능 향상을 보였습니다.
English
Data quality and diversity are key to the construction of effective instruction-tuning datasets. % With the increasing availability of open-source instruction-tuning datasets, it is advantageous to automatically select high-quality and diverse subsets from a vast amount of data. % Existing methods typically prioritize instance quality and use heuristic rules to maintain diversity. % However, this absence of a comprehensive view of the entire collection often leads to suboptimal results. % Moreover, heuristic rules generally focus on distance or clustering within the embedding space, which fails to accurately capture the intent of complex instructions in the semantic space. % To bridge this gap, we propose a unified method for quantifying the information content of datasets. This method models the semantic space by constructing a label graph and quantifies diversity based on the distribution of information within the graph. % Based on such a measurement, we further introduce an efficient sampling method that selects data samples iteratively to Maximize the Information Gain (MIG) in semantic space. % Experiments on various datasets and base models demonstrate that MIG consistently outperforms state-of-the-art methods. % Notably, the model fine-tuned with 5\% Tulu3 data sampled by MIG achieves comparable performance to the official SFT model trained on the full dataset, with improvements of +5.73\% on AlpacaEval and +6.89\% on Wildbench.

Summary

AI-Generated Summary

PDF363April 21, 2025