ICon: In-Context-Beitrag für die automatische Datenauswahl
ICon: In-Context Contribution for Automatic Data Selection
May 8, 2025
Autoren: Yixin Yang, Qingxiu Dong, Linli Yao, Fangwei Zhu, Zhifang Sui
cs.AI
Zusammenfassung
Die Datenauswahl für das Instruction Tuning ist entscheidend, um die Leistung von Large Language Models (LLMs) zu verbessern und die Trainingskosten zu senken. Bisherige automatisierte Auswahlmethoden basieren jedoch entweder auf rechenintensiven gradientenbasierten Maßnahmen oder manuell entworfenen Heuristiken, die möglicherweise nicht die intrinsischen Eigenschaften der Daten vollständig nutzen. In diesem Artikel schlagen wir In-context Learning for Contribution Measurement (ICon) vor, eine neuartige gradientenfreie Methode, die die implizite Feinabstimmung des In-context Learning (ICL) nutzt, um den Beitrag von Datenproben ohne Gradientenberechnung oder manuelle Indikatorenkonstruktion zu messen. ICon bietet eine recheneffiziente Alternative zu gradientenbasierten Methoden und reduziert den menschlichen induktiven Bias, der in heuristischen Ansätzen inhärent ist. ICon besteht aus drei Komponenten und identifiziert hochwertige Daten durch die Bewertung von Leistungsverschiebungen unter implizitem Lernen durch ICL. Umfangreiche Experimente mit drei LLMs über 12 Benchmarks und 5 paarweisen Evaluierungssets demonstrieren die Wirksamkeit von ICon. Bemerkenswerterweise übertreffen Modelle, die mit 15 % der von ICon ausgewählten Daten trainiert wurden, auf LLaMA3.1-8B die vollständigen Datensätze um 5,42 Prozentpunkte und übertreffen die beste Leistung weit verbreiteter Auswahlmethoden um 2,06 Prozentpunkte. Wir analysieren weiterhin hochwertige Proben, die von ICon ausgewählt wurden, und zeigen, dass diese sowohl vielfältige Aufgaben als auch angemessene Schwierigkeitsgrade aufweisen, anstatt nur die schwierigsten zu sein.
English
Data selection for instruction tuning is essential for improving the
performance of Large Language Models (LLMs) and reducing training cost.
However, existing automated selection methods either depend on computationally
expensive gradient-based measures or manually designed heuristics, which may
fail to fully exploit the intrinsic attributes of data. In this paper, we
propose In-context Learning for Contribution Measurement (ICon), a novel
gradient-free method that takes advantage of the implicit fine-tuning nature of
in-context learning (ICL) to measure sample contribution without gradient
computation or manual indicators engineering. ICon offers a computationally
efficient alternative to gradient-based methods and reduces human inductive
bias inherent in heuristic-based approaches. ICon comprises three components
and identifies high-contribution data by assessing performance shifts under
implicit learning through ICL. Extensive experiments on three LLMs across 12
benchmarks and 5 pairwise evaluation sets demonstrate the effectiveness of
ICon. Remarkably, on LLaMA3.1-8B, models trained on 15% of ICon-selected data
outperform full datasets by 5.42% points and exceed the best performance of
widely used selection methods by 2.06% points. We further analyze
high-contribution samples selected by ICon, which show both diverse tasks and
appropriate difficulty levels, rather than just the hardest ones.Summary
AI-Generated Summary