ChatPaper.aiChatPaper

MIG: Automatische Datenauswahl für das Instruction Tuning durch Maximierung des Informationsgewinns im semantischen Raum

MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space

April 18, 2025
Autoren: Yicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen
cs.AI

Zusammenfassung

Datenqualität und Diversität sind entscheidend für die Erstellung effektiver Instruction-Tuning-Datensätze. Mit der zunehmenden Verfügbarkeit von Open-Source-Instruction-Tuning-Datensätzen ist es vorteilhaft, automatisch hochwertige und diverse Teilmengen aus einer großen Datenmenge auszuwählen. Bestehende Methoden priorisieren typischerweise die Instanzqualität und verwenden heuristische Regeln, um die Diversität zu erhalten. Das Fehlen einer umfassenden Betrachtung der gesamten Sammlung führt jedoch oft zu suboptimalen Ergebnissen. Darüber hinaus konzentrieren sich heuristische Regeln in der Regel auf Abstände oder Clustering im Embedding-Raum, was die Absicht komplexer Anweisungen im semantischen Raum nicht präzise erfassen kann. Um diese Lücke zu schließen, schlagen wir eine einheitliche Methode zur Quantifizierung des Informationsgehalts von Datensätzen vor. Diese Methode modelliert den semantischen Raum durch die Konstruktion eines Label-Graphen und quantifiziert die Diversität basierend auf der Verteilung von Informationen innerhalb des Graphen. Basierend auf einer solchen Messung führen wir weiterhin eine effiziente Sampling-Methode ein, die Datenproben iterativ auswählt, um den Informationsgewinn (Maximize the Information Gain, MIG) im semantischen Raum zu maximieren. Experimente auf verschiedenen Datensätzen und Basismodellen zeigen, dass MIG durchweg state-of-the-art Methoden übertrifft. Bemerkenswerterweise erreicht das Modell, das mit 5 % der durch MIG ausgewählten Tulu3-Daten feinabgestimmt wurde, eine vergleichbare Leistung wie das offizielle SFT-Modell, das auf dem vollständigen Datensatz trainiert wurde, mit Verbesserungen von +5,73 % auf AlpacaEval und +6,89 % auf Wildbench.
English
Data quality and diversity are key to the construction of effective instruction-tuning datasets. % With the increasing availability of open-source instruction-tuning datasets, it is advantageous to automatically select high-quality and diverse subsets from a vast amount of data. % Existing methods typically prioritize instance quality and use heuristic rules to maintain diversity. % However, this absence of a comprehensive view of the entire collection often leads to suboptimal results. % Moreover, heuristic rules generally focus on distance or clustering within the embedding space, which fails to accurately capture the intent of complex instructions in the semantic space. % To bridge this gap, we propose a unified method for quantifying the information content of datasets. This method models the semantic space by constructing a label graph and quantifies diversity based on the distribution of information within the graph. % Based on such a measurement, we further introduce an efficient sampling method that selects data samples iteratively to Maximize the Information Gain (MIG) in semantic space. % Experiments on various datasets and base models demonstrate that MIG consistently outperforms state-of-the-art methods. % Notably, the model fine-tuned with 5\% Tulu3 data sampled by MIG achieves comparable performance to the official SFT model trained on the full dataset, with improvements of +5.73\% on AlpacaEval and +6.89\% on Wildbench.

Summary

AI-Generated Summary

PDF363April 21, 2025