MIG: Automatische Dataselectie voor Instructieafstemming door Informatiewinst te Maximaliseren in Semantische Ruimte
MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space
April 18, 2025
Auteurs: Yicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen
cs.AI
Samenvatting
Data kwaliteit en diversiteit zijn essentieel voor het opbouwen van effectieve instructie-afstemmingsdatasets. % Met de toenemende beschikbaarheid van open-source instructie-afstemmingsdatasets, is het voordelig om automatisch hoogwaardige en diverse subsets te selecteren uit een grote hoeveelheid data. % Bestaande methoden prioriteren doorgaans de kwaliteit van individuele instanties en gebruiken heuristische regels om diversiteit te behouden. % Echter, het ontbreken van een alomvattend overzicht van de gehele collectie leidt vaak tot suboptimale resultaten. % Bovendien richten heuristische regels zich meestal op afstand of clustering binnen de embeddingruimte, wat niet nauwkeurig de intentie van complexe instructies in de semantische ruimte vastlegt. % Om deze kloof te overbruggen, stellen we een uniforme methode voor om de informatie-inhoud van datasets te kwantificeren. Deze methode modelleert de semantische ruimte door een labelgrafiek te construeren en kwantificeert diversiteit op basis van de verdeling van informatie binnen de grafiek. % Op basis van een dergelijke meting introduceren we verder een efficiënte steekproefmethode die data samples iteratief selecteert om de Informatie Winst (Maximize the Information Gain, MIG) in de semantische ruimte te maximaliseren. % Experimenten op verschillende datasets en basismodellen tonen aan dat MIG consistent beter presteert dan state-of-the-art methoden. % Opmerkelijk is dat het model, afgestemd met 5\% van de Tulu3-data geselecteerd door MIG, vergelijkbare prestaties bereikt als het officiële SFT-model getraind op de volledige dataset, met verbeteringen van +5.73\% op AlpacaEval en +6.89\% op Wildbench.
English
Data quality and diversity are key to the construction of effective
instruction-tuning datasets. % With the increasing availability of open-source
instruction-tuning datasets, it is advantageous to automatically select
high-quality and diverse subsets from a vast amount of data. % Existing methods
typically prioritize instance quality and use heuristic rules to maintain
diversity. % However, this absence of a comprehensive view of the entire
collection often leads to suboptimal results. % Moreover, heuristic rules
generally focus on distance or clustering within the embedding space, which
fails to accurately capture the intent of complex instructions in the semantic
space. % To bridge this gap, we propose a unified method for quantifying the
information content of datasets. This method models the semantic space by
constructing a label graph and quantifies diversity based on the distribution
of information within the graph. % Based on such a measurement, we further
introduce an efficient sampling method that selects data samples iteratively to
Maximize the Information Gain (MIG) in semantic
space. % Experiments on various datasets and base models demonstrate that MIG
consistently outperforms state-of-the-art methods. % Notably, the model
fine-tuned with 5\% Tulu3 data sampled by MIG achieves comparable performance
to the official SFT model trained on the full dataset, with improvements of
+5.73\% on AlpacaEval and +6.89\% on Wildbench.Summary
AI-Generated Summary