Sélection de données basée sur le rapport signal-bruit du gradient avec prise en compte de l'incertitude pour le réglage par instruction
Uncertainty-Aware Gradient Signal-to-Noise Data Selection for Instruction Tuning
January 20, 2026
papers.authors: Zhihang Yuan, Chengyu Yue, Long Huang, Litu Ou, Lei Shi
cs.AI
papers.abstract
Le réglage par instructions est un paradigme standard pour l'adaptation des grands modèles de langage (LLM), mais les ensembles de données d'instructions modernes sont volumineux, bruyants et redondants, ce qui rend le réglage fin sur la totalité des données coûteux et souvent inutile. Les méthodes de sélection de données existantes construisent soit des magasins de données de gradients coûteux, soit attribuent des scores statiques à partir d'un proxy faible, ignorant largement l'incertitude évolutive et manquant ainsi une source clé d'interprétabilité des LLM. Nous proposons GRADFILTERING, un cadre de sélection de données agnostique par rapport à l'objectif et conscient de l'incertitude, qui utilise un petit proxy GPT-2 avec un ensemble LoRA et agrège les gradients par exemple en un ratio signal-sur-bruit de gradient (G-SNR) comme utilité. Notre méthode égale ou dépasse les sous-ensembles aléatoires et les bases de référence solides dans la plupart des évaluations de type "LLM-en-tant-que-juge" ainsi que dans l'évaluation humaine. De plus, les sous-ensembles sélectionnés par GRADFILTERING convergent plus rapidement que les filtres compétitifs sous le même budget de calcul, reflétant l'avantage d'un score tenant compte de l'incertitude.
English
Instruction tuning is a standard paradigm for adapting large language models (LLMs), but modern instruction datasets are large, noisy, and redundant, making full-data fine-tuning costly and often unnecessary. Existing data selection methods either build expensive gradient datastores or assign static scores from a weak proxy, largely ignoring evolving uncertainty, and thus missing a key source of LLM interpretability. We propose GRADFILTERING, an objective-agnostic, uncertainty-aware data selection framework that utilizes a small GPT-2 proxy with a LoRA ensemble and aggregates per-example gradients into a Gradient Signal-to-Noise Ratio (G-SNR) utility. Our method matches or surpasses random subsets and strong baselines in most LLM-as-a-judge evaluations as well as in human assessment. Moreover, GRADFILTERING-selected subsets converge faster than competitive filters under the same compute budget, reflecting the benefit of uncertainty-aware scoring.