MIG: Selección Automática de Datos para el Ajuste de Instrucciones mediante la Maximización de la Ganancia de Información en el Espacio Semántico
MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space
April 18, 2025
Autores: Yicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen
cs.AI
Resumen
La calidad y diversidad de los datos son fundamentales para la construcción de conjuntos de datos efectivos para el ajuste por instrucciones. % Con la creciente disponibilidad de conjuntos de datos de ajuste por instrucciones de código abierto, resulta ventajoso seleccionar automáticamente subconjuntos de alta calidad y diversidad a partir de una gran cantidad de datos. % Los métodos existentes suelen priorizar la calidad de las instancias y utilizan reglas heurísticas para mantener la diversidad. % Sin embargo, esta falta de una visión integral de toda la colección a menudo conduce a resultados subóptimos. % Además, las reglas heurísticas generalmente se centran en la distancia o agrupamiento dentro del espacio de incrustación, lo que no logra capturar con precisión la intención de instrucciones complejas en el espacio semántico. % Para cerrar esta brecha, proponemos un método unificado para cuantificar el contenido de información de los conjuntos de datos. Este método modela el espacio semántico mediante la construcción de un grafo de etiquetas y cuantifica la diversidad basándose en la distribución de la información dentro del grafo. % Basándonos en esta medición, introducimos además un método de muestreo eficiente que selecciona muestras de datos de manera iterativa para Maximizar la Ganancia de Información (MIG) en el espacio semántico. % Los experimentos en varios conjuntos de datos y modelos base demuestran que MIG supera consistentemente a los métodos más avanzados. % Cabe destacar que el modelo ajustado con un 5\% de los datos de Tulu3 muestreados por MIG logra un rendimiento comparable al modelo SFT oficial entrenado con el conjunto de datos completo, con mejoras de +5.73\% en AlpacaEval y +6.89\% en Wildbench.
English
Data quality and diversity are key to the construction of effective
instruction-tuning datasets. % With the increasing availability of open-source
instruction-tuning datasets, it is advantageous to automatically select
high-quality and diverse subsets from a vast amount of data. % Existing methods
typically prioritize instance quality and use heuristic rules to maintain
diversity. % However, this absence of a comprehensive view of the entire
collection often leads to suboptimal results. % Moreover, heuristic rules
generally focus on distance or clustering within the embedding space, which
fails to accurately capture the intent of complex instructions in the semantic
space. % To bridge this gap, we propose a unified method for quantifying the
information content of datasets. This method models the semantic space by
constructing a label graph and quantifies diversity based on the distribution
of information within the graph. % Based on such a measurement, we further
introduce an efficient sampling method that selects data samples iteratively to
Maximize the Information Gain (MIG) in semantic
space. % Experiments on various datasets and base models demonstrate that MIG
consistently outperforms state-of-the-art methods. % Notably, the model
fine-tuned with 5\% Tulu3 data sampled by MIG achieves comparable performance
to the official SFT model trained on the full dataset, with improvements of
+5.73\% on AlpacaEval and +6.89\% on Wildbench.Summary
AI-Generated Summary