ChatPaper.aiChatPaper

Un regard critique sur la sélection ciblée d'instructions : démêler ce qui compte (et ce qui ne compte pas)

A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)

February 16, 2026
papers.authors: Nihal V. Nayak, Paula Rodriguez-Diaz, Neha Hulkund, Sara Beery, David Alvarez-Melis
cs.AI

papers.abstract

Le réglage fin par instructions des grands modèles de langage (LLM) implique souvent la sélection d'un sous-ensemble de données d'entraînement à partir d'un vaste pool de candidats, en utilisant un petit ensemble de requêtes représentatif de la tâche cible. Malgré un intérêt croissant, la littérature sur la sélection ciblée d'instructions reste fragmentée et opaque : les méthodes varient considérablement en termes de budget de sélection, omettent souvent les lignes de base en mode "zéro-shot", et entremêlent fréquemment les contributions des composants clés. En conséquence, les praticiens manquent de conseils pratiques pour sélectionner des instructions adaptées à leurs tâches cibles. Dans ce travail, nous visons à clarifier ce paysage en démêlant et en analysant systématiquement les deux ingrédients fondamentaux : la représentation des données et les algorithmes de sélection. Notre cadre permet des comparaisons contrôlées entre modèles, tâches et budgets. Nous constatons que seules les représentations de données basées sur les gradients sélectionnent des sous-ensembles dont la similarité avec la requête prédit systématiquement les performances sur différents jeux de données et modèles. Bien qu'aucune méthode ne domine universellement, les représentations basées sur les gradients associées à un algorithme de sélection glouton par tour de rôle tendent à offrir les meilleures performances en moyenne pour les petits budgets, mais ces avantages s'estompent avec des budgets plus importants. Enfin, nous unifions plusieurs algorithmes de sélection existants en les présentant comme des formes de minimisation approximative de la distance entre le sous-ensemble sélectionné et l'ensemble de requêtes, et étayons cette perspective par de nouvelles bornes de généralisation. Plus largement, nos résultats fournissent des insights critiques et jettent les bases d'une sélection de données plus princiée pour le réglage fin des LLM. Le code est disponible à l'adresse https://github.com/dcml-lab/targeted-instruction-selection.
English
Instruction fine-tuning of large language models (LLMs) often involves selecting a subset of instruction training data from a large candidate pool, using a small query set from the target task. Despite growing interest, the literature on targeted instruction selection remains fragmented and opaque: methods vary widely in selection budgets, often omit zero-shot baselines, and frequently entangle the contributions of key components. As a result, practitioners lack actionable guidance on selecting instructions for their target tasks. In this work, we aim to bring clarity to this landscape by disentangling and systematically analyzing the two core ingredients: data representation and selection algorithms. Our framework enables controlled comparisons across models, tasks, and budgets. We find that only gradient-based data representations choose subsets whose similarity to the query consistently predicts performance across datasets and models. While no single method dominates, gradient-based representations paired with a greedy round-robin selection algorithm tend to perform best on average at low budgets, but these benefits diminish at larger budgets. Finally, we unify several existing selection algorithms as forms of approximate distance minimization between the selected subset and the query set, and support this view with new generalization bounds. More broadly, our findings provide critical insights and a foundation for more principled data selection in LLM fine-tuning. The code is available at https://github.com/dcml-lab/targeted-instruction-selection.
PDF02February 18, 2026