ICon: Вклад в контексте для автоматического выбора данных
ICon: In-Context Contribution for Automatic Data Selection
May 8, 2025
Авторы: Yixin Yang, Qingxiu Dong, Linli Yao, Fangwei Zhu, Zhifang Sui
cs.AI
Аннотация
Выбор данных для настройки инструкций имеет решающее значение для повышения производительности крупных языковых моделей (LLM) и снижения затрат на обучение. Однако существующие автоматизированные методы выбора либо зависят от вычислительно затратных градиентных метрик, либо от эвристик, разработанных вручную, которые могут не полностью учитывать внутренние свойства данных. В данной статье мы предлагаем In-context Learning for Contribution Measurement (ICon) — новый метод, не требующий вычисления градиентов, который использует неявную природу тонкой настройки в рамках обучения в контексте (ICL) для оценки вклада образцов данных без вычисления градиентов или разработки ручных индикаторов. ICon предоставляет вычислительно эффективную альтернативу градиентным методам и снижает человеческую индуктивную предвзятость, присущую эвристическим подходам. ICon состоит из трех компонентов и идентифицирует данные с высоким вкладом, оценивая изменения производительности при неявном обучении через ICL. Многочисленные эксперименты на трех LLM, охватывающих 12 бенчмарков и 5 парных наборов для оценки, демонстрируют эффективность ICon. Примечательно, что на модели LLaMA3.1-8B, обученной на 15% данных, отобранных с помощью ICon, результаты превосходят полные наборы данных на 5,42 процентных пункта и превышают лучшие показатели широко используемых методов выбора на 2,06 процентных пункта. Мы также анализируем образцы с высоким вкладом, отобранные ICon, которые демонстрируют как разнообразие задач, так и соответствующий уровень сложности, а не только самые сложные из них.
English
Data selection for instruction tuning is essential for improving the
performance of Large Language Models (LLMs) and reducing training cost.
However, existing automated selection methods either depend on computationally
expensive gradient-based measures or manually designed heuristics, which may
fail to fully exploit the intrinsic attributes of data. In this paper, we
propose In-context Learning for Contribution Measurement (ICon), a novel
gradient-free method that takes advantage of the implicit fine-tuning nature of
in-context learning (ICL) to measure sample contribution without gradient
computation or manual indicators engineering. ICon offers a computationally
efficient alternative to gradient-based methods and reduces human inductive
bias inherent in heuristic-based approaches. ICon comprises three components
and identifies high-contribution data by assessing performance shifts under
implicit learning through ICL. Extensive experiments on three LLMs across 12
benchmarks and 5 pairwise evaluation sets demonstrate the effectiveness of
ICon. Remarkably, on LLaMA3.1-8B, models trained on 15% of ICon-selected data
outperform full datasets by 5.42% points and exceed the best performance of
widely used selection methods by 2.06% points. We further analyze
high-contribution samples selected by ICon, which show both diverse tasks and
appropriate difficulty levels, rather than just the hardest ones.