ICon: Contributo In-Contesto per la Selezione Automatica dei Dati

Abstract

La selezione dei dati per il fine-tuning delle istruzioni è essenziale per migliorare le prestazioni dei Large Language Models (LLM) e ridurre i costi di addestramento. Tuttavia, i metodi di selezione automatizzati esistenti si basano su misure computazionalmente costose basate sui gradienti o su euristiche progettate manualmente, che potrebbero non sfruttare appieno gli attributi intrinseci dei dati. In questo articolo, proponiamo In-context Learning for Contribution Measurement (ICon), un nuovo metodo senza gradienti che sfrutta la natura implicita del fine-tuning dell'in-context learning (ICL) per misurare il contributo dei campioni senza calcoli di gradienti o progettazione manuale di indicatori. ICon offre un'alternativa computazionalmente efficiente ai metodi basati sui gradienti e riduce il bias induttivo umano insito negli approcci basati su euristiche. ICon è composto da tre componenti e identifica i dati ad alto contributo valutando gli spostamenti delle prestazioni sotto l'apprendimento implicito attraverso l'ICL. Esperimenti estesi su tre LLM attraverso 12 benchmark e 5 set di valutazione a coppie dimostrano l'efficacia di ICon. In modo significativo, su LLaMA3.1-8B, i modelli addestrati sul 15% dei dati selezionati da ICon superano i dataset completi di 5,42 punti percentuali e superano la migliore prestazione dei metodi di selezione ampiamente utilizzati di 2,06 punti percentuali. Analizziamo ulteriormente i campioni ad alto contributo selezionati da ICon, che mostrano sia compiti diversificati che livelli di difficoltà appropriati, piuttosto che solo i più difficili.

English

Data selection for instruction tuning is essential for improving the performance of Large Language Models (LLMs) and reducing training cost. However, existing automated selection methods either depend on computationally expensive gradient-based measures or manually designed heuristics, which may fail to fully exploit the intrinsic attributes of data. In this paper, we propose In-context Learning for Contribution Measurement (ICon), a novel gradient-free method that takes advantage of the implicit fine-tuning nature of in-context learning (ICL) to measure sample contribution without gradient computation or manual indicators engineering. ICon offers a computationally efficient alternative to gradient-based methods and reduces human inductive bias inherent in heuristic-based approaches. ICon comprises three components and identifies high-contribution data by assessing performance shifts under implicit learning through ICL. Extensive experiments on three LLMs across 12 benchmarks and 5 pairwise evaluation sets demonstrate the effectiveness of ICon. Remarkably, on LLaMA3.1-8B, models trained on 15% of ICon-selected data outperform full datasets by 5.42% points and exceed the best performance of widely used selection methods by 2.06% points. We further analyze high-contribution samples selected by ICon, which show both diverse tasks and appropriate difficulty levels, rather than just the hardest ones.

ICon: Contributo In-Contesto per la Selezione Automatica dei Dati

ICon: In-Context Contribution for Automatic Data Selection

Abstract

Support