ICon: Contribución en Contexto para la Selección Automática de Datos
ICon: In-Context Contribution for Automatic Data Selection
May 8, 2025
Autores: Yixin Yang, Qingxiu Dong, Linli Yao, Fangwei Zhu, Zhifang Sui
cs.AI
Resumen
La selección de datos para el ajuste por instrucciones es esencial para mejorar el rendimiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y reducir los costos de entrenamiento. Sin embargo, los métodos automatizados de selección existentes dependen ya sea de medidas basadas en gradientes computacionalmente costosas o de heurísticas diseñadas manualmente, lo que puede no explotar completamente los atributos intrínsecos de los datos. En este artículo, proponemos Aprendizaje en Contexto para la Medición de Contribución (ICon, por sus siglas en inglés), un método novedoso libre de gradientes que aprovecha la naturaleza implícita del ajuste fino del aprendizaje en contexto (ICL, por sus siglas en inglés) para medir la contribución de las muestras sin necesidad de cálculos de gradientes o ingeniería manual de indicadores. ICon ofrece una alternativa computacionalmente eficiente a los métodos basados en gradientes y reduce el sesgo inductivo humano inherente en los enfoques basados en heurísticas. ICon consta de tres componentes e identifica datos de alta contribución evaluando cambios en el rendimiento bajo aprendizaje implícito a través de ICL. Experimentos extensos en tres LLMs a lo largo de 12 benchmarks y 5 conjuntos de evaluación por pares demuestran la efectividad de ICon. Notablemente, en LLaMA3.1-8B, los modelos entrenados con el 15% de los datos seleccionados por ICon superan a los conjuntos de datos completos en 5.42 puntos porcentuales y exceden el mejor rendimiento de los métodos de selección ampliamente utilizados en 2.06 puntos porcentuales. Además, analizamos las muestras de alta contribución seleccionadas por ICon, las cuales muestran tanto tareas diversas como niveles de dificultad apropiados, en lugar de solo las más difíciles.
English
Data selection for instruction tuning is essential for improving the
performance of Large Language Models (LLMs) and reducing training cost.
However, existing automated selection methods either depend on computationally
expensive gradient-based measures or manually designed heuristics, which may
fail to fully exploit the intrinsic attributes of data. In this paper, we
propose In-context Learning for Contribution Measurement (ICon), a novel
gradient-free method that takes advantage of the implicit fine-tuning nature of
in-context learning (ICL) to measure sample contribution without gradient
computation or manual indicators engineering. ICon offers a computationally
efficient alternative to gradient-based methods and reduces human inductive
bias inherent in heuristic-based approaches. ICon comprises three components
and identifies high-contribution data by assessing performance shifts under
implicit learning through ICL. Extensive experiments on three LLMs across 12
benchmarks and 5 pairwise evaluation sets demonstrate the effectiveness of
ICon. Remarkably, on LLaMA3.1-8B, models trained on 15% of ICon-selected data
outperform full datasets by 5.42% points and exceed the best performance of
widely used selection methods by 2.06% points. We further analyze
high-contribution samples selected by ICon, which show both diverse tasks and
appropriate difficulty levels, rather than just the hardest ones.Summary
AI-Generated Summary