Een kritische blik op gerichte instructieselectie: wat ertoe doet (en wat niet) ontrafeld

Samenvatting

Het instruction fine-tunen van large language models (LLM's) houdt vaak in dat een subset van instructietrainingsgegevens wordt geselecteerd uit een grote kandidaatpool, met behulp van een kleine queryset van de doeltaak. Ondanks een groeiende interesse blijft de literatuur over gerichte instructieselectie gefragmenteerd en ondoorzichtig: methoden variëren sterk in selectiebudgetten, sluiten vaak zero-shot-baselines uit, en verstrengelen frequent de bijdragen van kerncomponenten. Hierdoor ontbreekt het praktijkmensen aan concrete richtlijnen voor het selecteren van instructies voor hun doeltaken. In dit werk willen wij duidelijkheid scheppen in dit landschap door de twee kerningrediënten te ontwarren en systematisch te analyseren: datarepresentatie en selectiealgoritmen. Ons raamwerk maakt gecontroleerde vergelijkingen mogelijk tussen modellen, taken en budgetten. Wij constateren dat alleen op gradienten gebaseerde datarepresentaties subsets kiezen waarvan de gelijkenis met de query consistent prestaties voorspelt across datasets en modellen. Hoewel geen enkele methode domineert, presteren op gradienten gebaseerde representaties gekoppeld aan een gretig round-robin-selectiealgoritme gemiddeld het beste bij lage budgetten, maar nemen deze voordelen af bij grotere budgetten. Ten slotte verenigen wij verschillende bestaande selectiealgoritmen als vormen van benaderde afstandsminimalisatie tussen de geselecteerde subset en de queryset, en ondersteunen deze visie met nieuwe generalisatiegrenzen. In bredere zin bieden onze bevindingen kritische inzichten en een basis voor meer principieel dataselectie bij het fine-tunen van LLM's. De code is beschikbaar op https://github.com/dcml-lab/targeted-instruction-selection.

English

Instruction fine-tuning of large language models (LLMs) often involves selecting a subset of instruction training data from a large candidate pool, using a small query set from the target task. Despite growing interest, the literature on targeted instruction selection remains fragmented and opaque: methods vary widely in selection budgets, often omit zero-shot baselines, and frequently entangle the contributions of key components. As a result, practitioners lack actionable guidance on selecting instructions for their target tasks. In this work, we aim to bring clarity to this landscape by disentangling and systematically analyzing the two core ingredients: data representation and selection algorithms. Our framework enables controlled comparisons across models, tasks, and budgets. We find that only gradient-based data representations choose subsets whose similarity to the query consistently predicts performance across datasets and models. While no single method dominates, gradient-based representations paired with a greedy round-robin selection algorithm tend to perform best on average at low budgets, but these benefits diminish at larger budgets. Finally, we unify several existing selection algorithms as forms of approximate distance minimization between the selected subset and the query set, and support this view with new generalization bounds. More broadly, our findings provide critical insights and a foundation for more principled data selection in LLM fine-tuning. The code is available at https://github.com/dcml-lab/targeted-instruction-selection.

Een kritische blik op gerichte instructieselectie: wat ertoe doet (en wat niet) ontrafeld

A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)

Samenvatting

Support