ICon: Contributo In-Contesto per la Selezione Automatica dei Dati
ICon: In-Context Contribution for Automatic Data Selection
May 8, 2025
Autori: Yixin Yang, Qingxiu Dong, Linli Yao, Fangwei Zhu, Zhifang Sui
cs.AI
Abstract
La selezione dei dati per il fine-tuning delle istruzioni è essenziale per migliorare le prestazioni dei Large Language Models (LLM) e ridurre i costi di addestramento. Tuttavia, i metodi di selezione automatizzati esistenti si basano su misure computazionalmente costose basate sui gradienti o su euristiche progettate manualmente, che potrebbero non sfruttare appieno gli attributi intrinseci dei dati. In questo articolo, proponiamo In-context Learning for Contribution Measurement (ICon), un nuovo metodo senza gradienti che sfrutta la natura implicita del fine-tuning dell'in-context learning (ICL) per misurare il contributo dei campioni senza calcoli di gradienti o progettazione manuale di indicatori. ICon offre un'alternativa computazionalmente efficiente ai metodi basati sui gradienti e riduce il bias induttivo umano insito negli approcci basati su euristiche. ICon è composto da tre componenti e identifica i dati ad alto contributo valutando gli spostamenti delle prestazioni sotto l'apprendimento implicito attraverso l'ICL. Esperimenti estesi su tre LLM attraverso 12 benchmark e 5 set di valutazione a coppie dimostrano l'efficacia di ICon. In modo significativo, su LLaMA3.1-8B, i modelli addestrati sul 15% dei dati selezionati da ICon superano i dataset completi di 5,42 punti percentuali e superano la migliore prestazione dei metodi di selezione ampiamente utilizzati di 2,06 punti percentuali. Analizziamo ulteriormente i campioni ad alto contributo selezionati da ICon, che mostrano sia compiti diversificati che livelli di difficoltà appropriati, piuttosto che solo i più difficili.
English
Data selection for instruction tuning is essential for improving the
performance of Large Language Models (LLMs) and reducing training cost.
However, existing automated selection methods either depend on computationally
expensive gradient-based measures or manually designed heuristics, which may
fail to fully exploit the intrinsic attributes of data. In this paper, we
propose In-context Learning for Contribution Measurement (ICon), a novel
gradient-free method that takes advantage of the implicit fine-tuning nature of
in-context learning (ICL) to measure sample contribution without gradient
computation or manual indicators engineering. ICon offers a computationally
efficient alternative to gradient-based methods and reduces human inductive
bias inherent in heuristic-based approaches. ICon comprises three components
and identifies high-contribution data by assessing performance shifts under
implicit learning through ICL. Extensive experiments on three LLMs across 12
benchmarks and 5 pairwise evaluation sets demonstrate the effectiveness of
ICon. Remarkably, on LLaMA3.1-8B, models trained on 15% of ICon-selected data
outperform full datasets by 5.42% points and exceed the best performance of
widely used selection methods by 2.06% points. We further analyze
high-contribution samples selected by ICon, which show both diverse tasks and
appropriate difficulty levels, rather than just the hardest ones.