ChatPaper.aiChatPaper

MIG: Автоматический выбор данных для настройки инструкций путем максимизации информационного прироста в семантическом пространстве

MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space

April 18, 2025
Авторы: Yicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen
cs.AI

Аннотация

Качество и разнообразие данных являются ключевыми факторами при создании эффективных наборов данных для тонкой настройки инструкций. С увеличением доступности открытых наборов данных для такой настройки, автоматический выбор высококачественных и разнообразных подмножеств из большого объема данных становится преимуществом. Существующие методы обычно уделяют приоритетное внимание качеству отдельных экземпляров и используют эвристические правила для поддержания разнообразия. Однако отсутствие комплексного представления о всей коллекции часто приводит к неоптимальным результатам. Более того, эвристические правила обычно сосредоточены на расстоянии или кластеризации в пространстве эмбеддингов, что не позволяет точно уловить смысл сложных инструкций в семантическом пространстве. Чтобы устранить этот пробел, мы предлагаем унифицированный метод для количественной оценки информационного содержания наборов данных. Этот метод моделирует семантическое пространство путем построения графа меток и количественно оценивает разнообразие на основе распределения информации в графе. На основе такой оценки мы также вводим эффективный метод выборки, который итеративно выбирает образцы данных для максимизации информационного прироста (MIG) в семантическом пространстве. Эксперименты на различных наборах данных и базовых моделях показывают, что MIG стабильно превосходит современные методы. Примечательно, что модель, донастроенная на 5% данных Tulu3, отобранных с помощью MIG, демонстрирует сопоставимую производительность с официальной SFT-моделью, обученной на полном наборе данных, с улучшениями на +5,73% на AlpacaEval и +6,89% на Wildbench.
English
Data quality and diversity are key to the construction of effective instruction-tuning datasets. % With the increasing availability of open-source instruction-tuning datasets, it is advantageous to automatically select high-quality and diverse subsets from a vast amount of data. % Existing methods typically prioritize instance quality and use heuristic rules to maintain diversity. % However, this absence of a comprehensive view of the entire collection often leads to suboptimal results. % Moreover, heuristic rules generally focus on distance or clustering within the embedding space, which fails to accurately capture the intent of complex instructions in the semantic space. % To bridge this gap, we propose a unified method for quantifying the information content of datasets. This method models the semantic space by constructing a label graph and quantifies diversity based on the distribution of information within the graph. % Based on such a measurement, we further introduce an efficient sampling method that selects data samples iteratively to Maximize the Information Gain (MIG) in semantic space. % Experiments on various datasets and base models demonstrate that MIG consistently outperforms state-of-the-art methods. % Notably, the model fine-tuned with 5\% Tulu3 data sampled by MIG achieves comparable performance to the official SFT model trained on the full dataset, with improvements of +5.73\% on AlpacaEval and +6.89\% on Wildbench.

Summary

AI-Generated Summary

PDF363April 21, 2025