MIG: Selezione Automatica dei Dati per il Fine-Tuning delle Istruzioni attraverso la Massimizzazione del Guadagno di Informazione nello Spazio Semantico
MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space
April 18, 2025
Autori: Yicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen
cs.AI
Abstract
La qualità e la diversità dei dati sono fondamentali per la costruzione di dataset efficaci per il fine-tuning delle istruzioni. Con la crescente disponibilità di dataset open-source per il fine-tuning delle istruzioni, è vantaggioso selezionare automaticamente sottoinsiemi di alta qualità e diversificati da una vasta quantità di dati. I metodi esistenti tipicamente privilegiano la qualità delle istanze e utilizzano regole euristiche per mantenere la diversità. Tuttavia, questa mancanza di una visione complessiva dell'intera raccolta spesso porta a risultati subottimali. Inoltre, le regole euristiche si concentrano generalmente sulla distanza o sul clustering all'interno dello spazio di embedding, il che non riesce a catturare accuratamente l'intento di istruzioni complesse nello spazio semantico. Per colmare questa lacuna, proponiamo un metodo unificato per quantificare il contenuto informativo dei dataset. Questo metodo modella lo spazio semantico costruendo un grafo delle etichette e quantifica la diversità basandosi sulla distribuzione delle informazioni all'interno del grafo. Basandoci su tale misurazione, introduciamo ulteriormente un metodo di campionamento efficiente che seleziona iterativamente i campioni di dati per massimizzare il guadagno informativo (MIG) nello spazio semantico. Esperimenti su vari dataset e modelli di base dimostrano che MIG supera costantemente i metodi all'avanguardia. In particolare, il modello fine-tuned con il 5% dei dati di Tulu3 campionati da MIG raggiunge prestazioni comparabili al modello SFT ufficiale addestrato sull'intero dataset, con miglioramenti del +5,73% su AlpacaEval e del +6,89% su Wildbench.
English
Data quality and diversity are key to the construction of effective
instruction-tuning datasets. % With the increasing availability of open-source
instruction-tuning datasets, it is advantageous to automatically select
high-quality and diverse subsets from a vast amount of data. % Existing methods
typically prioritize instance quality and use heuristic rules to maintain
diversity. % However, this absence of a comprehensive view of the entire
collection often leads to suboptimal results. % Moreover, heuristic rules
generally focus on distance or clustering within the embedding space, which
fails to accurately capture the intent of complex instructions in the semantic
space. % To bridge this gap, we propose a unified method for quantifying the
information content of datasets. This method models the semantic space by
constructing a label graph and quantifies diversity based on the distribution
of information within the graph. % Based on such a measurement, we further
introduce an efficient sampling method that selects data samples iteratively to
Maximize the Information Gain (MIG) in semantic
space. % Experiments on various datasets and base models demonstrate that MIG
consistently outperforms state-of-the-art methods. % Notably, the model
fine-tuned with 5\% Tulu3 data sampled by MIG achieves comparable performance
to the official SFT model trained on the full dataset, with improvements of
+5.73\% on AlpacaEval and +6.89\% on Wildbench.Summary
AI-Generated Summary