ChatPaper.aiChatPaper

ICon : Contribution en Contexte pour la Sélection Automatique de Données

ICon: In-Context Contribution for Automatic Data Selection

May 8, 2025
Auteurs: Yixin Yang, Qingxiu Dong, Linli Yao, Fangwei Zhu, Zhifang Sui
cs.AI

Résumé

La sélection des données pour l'ajustement des instructions est essentielle pour améliorer les performances des grands modèles de langage (LLMs) et réduire les coûts d'entraînement. Cependant, les méthodes de sélection automatisées existantes dépendent soit de mesures basées sur le gradient, coûteuses en calcul, soit d'heuristiques conçues manuellement, qui peuvent ne pas exploiter pleinement les attributs intrinsèques des données. Dans cet article, nous proposons In-context Learning for Contribution Measurement (ICon), une nouvelle méthode sans gradient qui tire parti de la nature implicite de l'ajustement fin par apprentissage en contexte (ICL) pour mesurer la contribution des échantillons sans calcul de gradient ni conception manuelle d'indicateurs. ICon offre une alternative efficace sur le plan computationnel aux méthodes basées sur le gradient et réduit le biais inductif humain inhérent aux approches heuristiques. ICon se compose de trois éléments et identifie les données à forte contribution en évaluant les variations de performance sous l'apprentissage implicite via l'ICL. Des expériences approfondies sur trois LLMs à travers 12 benchmarks et 5 ensembles d'évaluation par paires démontrent l'efficacité d'ICon. De manière remarquable, sur LLaMA3.1-8B, les modèles entraînés sur 15 % des données sélectionnées par ICon surpassent les ensembles de données complets de 5,42 points de pourcentage et dépassent la meilleure performance des méthodes de sélection largement utilisées de 2,06 points de pourcentage. Nous analysons en outre les échantillons à forte contribution sélectionnés par ICon, qui montrent à la fois des tâches variées et des niveaux de difficulté appropriés, plutôt que seulement les plus difficiles.
English
Data selection for instruction tuning is essential for improving the performance of Large Language Models (LLMs) and reducing training cost. However, existing automated selection methods either depend on computationally expensive gradient-based measures or manually designed heuristics, which may fail to fully exploit the intrinsic attributes of data. In this paper, we propose In-context Learning for Contribution Measurement (ICon), a novel gradient-free method that takes advantage of the implicit fine-tuning nature of in-context learning (ICL) to measure sample contribution without gradient computation or manual indicators engineering. ICon offers a computationally efficient alternative to gradient-based methods and reduces human inductive bias inherent in heuristic-based approaches. ICon comprises three components and identifies high-contribution data by assessing performance shifts under implicit learning through ICL. Extensive experiments on three LLMs across 12 benchmarks and 5 pairwise evaluation sets demonstrate the effectiveness of ICon. Remarkably, on LLaMA3.1-8B, models trained on 15% of ICon-selected data outperform full datasets by 5.42% points and exceed the best performance of widely used selection methods by 2.06% points. We further analyze high-contribution samples selected by ICon, which show both diverse tasks and appropriate difficulty levels, rather than just the hardest ones.

Summary

AI-Generated Summary

PDF101May 9, 2025