ChatPaper.aiChatPaper

MIG: Seleção Automática de Dados para Ajuste de Instruções por Maximização do Ganho de Informação no Espaço Semântico

MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space

April 18, 2025
Autores: Yicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen
cs.AI

Resumo

A qualidade e a diversidade dos dados são fundamentais para a construção de conjuntos de dados eficazes para ajuste por instrução. Com a crescente disponibilidade de conjuntos de dados de ajuste por instrução de código aberto, é vantajoso selecionar automaticamente subconjuntos de alta qualidade e diversidade a partir de uma grande quantidade de dados. Os métodos existentes geralmente priorizam a qualidade das instâncias e utilizam regras heurísticas para manter a diversidade. No entanto, a ausência de uma visão abrangente de toda a coleção frequentemente leva a resultados subótimos. Além disso, as regras heurísticas geralmente se concentram na distância ou no agrupamento dentro do espaço de incorporação, o que falha em capturar com precisão a intenção de instruções complexas no espaço semântico. Para preencher essa lacuna, propomos um método unificado para quantificar o conteúdo de informação dos conjuntos de dados. Esse método modela o espaço semântico construindo um grafo de rótulos e quantifica a diversidade com base na distribuição de informação dentro do grafo. Com base nessa medição, introduzimos ainda um método de amostragem eficiente que seleciona amostras de dados iterativamente para Maximizar o Ganho de Informação (MIG) no espaço semântico. Experimentos em diversos conjuntos de dados e modelos base demonstram que o MIG supera consistentemente os métodos state-of-the-art. Notavelmente, o modelo ajustado com 5\% dos dados do Tulu3 amostrados pelo MIG alcança desempenho comparável ao modelo SFT oficial treinado no conjunto de dados completo, com melhorias de +5,73\% no AlpacaEval e +6,89\% no Wildbench.
English
Data quality and diversity are key to the construction of effective instruction-tuning datasets. % With the increasing availability of open-source instruction-tuning datasets, it is advantageous to automatically select high-quality and diverse subsets from a vast amount of data. % Existing methods typically prioritize instance quality and use heuristic rules to maintain diversity. % However, this absence of a comprehensive view of the entire collection often leads to suboptimal results. % Moreover, heuristic rules generally focus on distance or clustering within the embedding space, which fails to accurately capture the intent of complex instructions in the semantic space. % To bridge this gap, we propose a unified method for quantifying the information content of datasets. This method models the semantic space by constructing a label graph and quantifies diversity based on the distribution of information within the graph. % Based on such a measurement, we further introduce an efficient sampling method that selects data samples iteratively to Maximize the Information Gain (MIG) in semantic space. % Experiments on various datasets and base models demonstrate that MIG consistently outperforms state-of-the-art methods. % Notably, the model fine-tuned with 5\% Tulu3 data sampled by MIG achieves comparable performance to the official SFT model trained on the full dataset, with improvements of +5.73\% on AlpacaEval and +6.89\% on Wildbench.

Summary

AI-Generated Summary

PDF363April 21, 2025