MIG : Sélection automatique de données pour le réglage d'instructions par la maximisation du gain d'information dans l'espace sémantique
MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space
April 18, 2025
Auteurs: Yicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen
cs.AI
Résumé
La qualité et la diversité des données sont essentielles à la construction de jeux de données efficaces pour l'ajustement par instruction. Avec la disponibilité croissante de jeux de données open-source pour l'ajustement par instruction, il est avantageux de sélectionner automatiquement des sous-ensembles de haute qualité et diversifiés à partir d'une grande quantité de données. Les méthodes existantes privilégient généralement la qualité des instances et utilisent des règles heuristiques pour maintenir la diversité. Cependant, cette absence de vision globale de l'ensemble de la collection conduit souvent à des résultats sous-optimaux. De plus, les règles heuristiques se concentrent généralement sur la distance ou le clustering dans l'espace d'embedding, ce qui ne parvient pas à capturer avec précision l'intention des instructions complexes dans l'espace sémantique. Pour combler cette lacune, nous proposons une méthode unifiée pour quantifier le contenu informationnel des jeux de données. Cette méthode modélise l'espace sémantique en construisant un graphe de labels et quantifie la diversité en fonction de la distribution de l'information au sein du graphe. Sur la base d'une telle mesure, nous introduisons en outre une méthode d'échantillonnage efficace qui sélectionne itérativement des échantillons de données pour maximiser le gain d'information (Maximize the Information Gain, MIG) dans l'espace sémantique. Les expériences sur divers jeux de données et modèles de base démontrent que MIG surpasse systématiquement les méthodes de pointe. Notamment, le modèle affiné avec 5 % des données de Tulu3 échantillonnées par MIG atteint des performances comparables au modèle SFT officiel entraîné sur l'ensemble du jeu de données, avec des améliorations de +5,73 % sur AlpacaEval et +6,89 % sur Wildbench.
English
Data quality and diversity are key to the construction of effective
instruction-tuning datasets. % With the increasing availability of open-source
instruction-tuning datasets, it is advantageous to automatically select
high-quality and diverse subsets from a vast amount of data. % Existing methods
typically prioritize instance quality and use heuristic rules to maintain
diversity. % However, this absence of a comprehensive view of the entire
collection often leads to suboptimal results. % Moreover, heuristic rules
generally focus on distance or clustering within the embedding space, which
fails to accurately capture the intent of complex instructions in the semantic
space. % To bridge this gap, we propose a unified method for quantifying the
information content of datasets. This method models the semantic space by
constructing a label graph and quantifies diversity based on the distribution
of information within the graph. % Based on such a measurement, we further
introduce an efficient sampling method that selects data samples iteratively to
Maximize the Information Gain (MIG) in semantic
space. % Experiments on various datasets and base models demonstrate that MIG
consistently outperforms state-of-the-art methods. % Notably, the model
fine-tuned with 5\% Tulu3 data sampled by MIG achieves comparable performance
to the official SFT model trained on the full dataset, with improvements of
+5.73\% on AlpacaEval and +6.89\% on Wildbench.Summary
AI-Generated Summary