ICon: In-Context Bijdrage voor Automatische Dataselectie
ICon: In-Context Contribution for Automatic Data Selection
May 8, 2025
Auteurs: Yixin Yang, Qingxiu Dong, Linli Yao, Fangwei Zhu, Zhifang Sui
cs.AI
Samenvatting
Dataselectie voor instructieafstemming is essentieel voor het verbeteren van de prestaties van Large Language Models (LLMs) en het verlagen van de trainingskosten. Bestaande geautomatiseerde selectiemethoden zijn echter afhankelijk van rekenintensieve, op gradients gebaseerde metingen of handmatig ontworpen heuristieken, die mogelijk niet volledig gebruikmaken van de intrinsieke eigenschappen van de data. In dit artikel introduceren we In-context Learning for Contribution Measurement (ICon), een nieuwe gradient-vrije methode die gebruikmaakt van de impliciete fine-tuning aard van in-context learning (ICL) om de bijdrage van samples te meten zonder gradientberekening of handmatige indicatorontwikkeling. ICon biedt een rekenkundig efficiënt alternatief voor op gradients gebaseerde methoden en vermindert de menselijke inductieve bias die inherent is aan heuristiek-gebaseerde benaderingen. ICon bestaat uit drie componenten en identificeert data met een hoge bijdrage door prestatieverschuivingen te beoordelen onder impliciet leren via ICL. Uitgebreide experimenten op drie LLMs over 12 benchmarks en 5 paarsgewijze evaluatiesets tonen de effectiviteit van ICon aan. Opmerkelijk is dat op LLaMA3.1-8B modellen die getraind zijn op 15% van de door ICon geselecteerde data, de volledige datasets overtreffen met 5,42 procentpunten en de beste prestaties van veelgebruikte selectiemethoden overstijgen met 2,06 procentpunten. We analyseren verder de samples met een hoge bijdrage die door ICon zijn geselecteerd, die zowel diverse taken als passende moeilijkheidsniveaus laten zien, in plaats van alleen de moeilijkste.
English
Data selection for instruction tuning is essential for improving the
performance of Large Language Models (LLMs) and reducing training cost.
However, existing automated selection methods either depend on computationally
expensive gradient-based measures or manually designed heuristics, which may
fail to fully exploit the intrinsic attributes of data. In this paper, we
propose In-context Learning for Contribution Measurement (ICon), a novel
gradient-free method that takes advantage of the implicit fine-tuning nature of
in-context learning (ICL) to measure sample contribution without gradient
computation or manual indicators engineering. ICon offers a computationally
efficient alternative to gradient-based methods and reduces human inductive
bias inherent in heuristic-based approaches. ICon comprises three components
and identifies high-contribution data by assessing performance shifts under
implicit learning through ICL. Extensive experiments on three LLMs across 12
benchmarks and 5 pairwise evaluation sets demonstrate the effectiveness of
ICon. Remarkably, on LLaMA3.1-8B, models trained on 15% of ICon-selected data
outperform full datasets by 5.42% points and exceed the best performance of
widely used selection methods by 2.06% points. We further analyze
high-contribution samples selected by ICon, which show both diverse tasks and
appropriate difficulty levels, rather than just the hardest ones.