ICon: Contribuição em Contexto para Seleção Automática de Dados
ICon: In-Context Contribution for Automatic Data Selection
May 8, 2025
Autores: Yixin Yang, Qingxiu Dong, Linli Yao, Fangwei Zhu, Zhifang Sui
cs.AI
Resumo
A seleção de dados para ajuste de instruções é essencial para melhorar o desempenho de Modelos de Linguagem de Grande Escala (LLMs) e reduzir os custos de treinamento. No entanto, os métodos automatizados de seleção existentes dependem de medidas baseadas em gradientes computacionalmente caras ou heurísticas projetadas manualmente, que podem falhar em explorar plenamente os atributos intrínsecos dos dados. Neste artigo, propomos o Aprendizado em Contexto para Medição de Contribuição (ICon), um novo método sem gradiente que aproveita a natureza implícita de ajuste fino do aprendizado em contexto (ICL) para medir a contribuição das amostras sem computação de gradiente ou engenharia manual de indicadores. O ICon oferece uma alternativa computacionalmente eficiente aos métodos baseados em gradientes e reduz o viés indutivo humano inerente às abordagens baseadas em heurísticas. O ICon consiste em três componentes e identifica dados de alta contribuição avaliando mudanças de desempenho sob aprendizado implícito por meio do ICL. Experimentos extensos em três LLMs, abrangendo 12 benchmarks e 5 conjuntos de avaliação pareados, demonstram a eficácia do ICon. Notavelmente, no LLaMA3.1-8B, modelos treinados com 15% dos dados selecionados pelo ICon superam os conjuntos de dados completos em 5,42 pontos percentuais e excedem o melhor desempenho dos métodos de seleção amplamente utilizados em 2,06 pontos percentuais. Analisamos ainda as amostras de alta contribuição selecionadas pelo ICon, que mostram tanto tarefas diversas quanto níveis de dificuldade apropriados, em vez de apenas as mais difíceis.
English
Data selection for instruction tuning is essential for improving the
performance of Large Language Models (LLMs) and reducing training cost.
However, existing automated selection methods either depend on computationally
expensive gradient-based measures or manually designed heuristics, which may
fail to fully exploit the intrinsic attributes of data. In this paper, we
propose In-context Learning for Contribution Measurement (ICon), a novel
gradient-free method that takes advantage of the implicit fine-tuning nature of
in-context learning (ICL) to measure sample contribution without gradient
computation or manual indicators engineering. ICon offers a computationally
efficient alternative to gradient-based methods and reduces human inductive
bias inherent in heuristic-based approaches. ICon comprises three components
and identifies high-contribution data by assessing performance shifts under
implicit learning through ICL. Extensive experiments on three LLMs across 12
benchmarks and 5 pairwise evaluation sets demonstrate the effectiveness of
ICon. Remarkably, on LLaMA3.1-8B, models trained on 15% of ICon-selected data
outperform full datasets by 5.42% points and exceed the best performance of
widely used selection methods by 2.06% points. We further analyze
high-contribution samples selected by ICon, which show both diverse tasks and
appropriate difficulty levels, rather than just the hardest ones.