Uno sguardo critico alla selezione mirata delle istruzioni: districare ciò che conta (e ciò che non conta)

Abstract

L'ottimizzazione fine delle istruzioni per i grandi modelli linguistici (LLM) spesso prevede la selezione di un sottoinsieme di dati di addestramento da un ampio pool di candidati, utilizzando un piccolo set di query proveniente dal task target. Nonostante il crescente interesse, la letteratura sulla selezione mirata delle istruzioni rimane frammentata e opaca: i metodi variano notevolmente nei budget di selezione, spesso omettono i benchmark zero-shot e frequentemente confondono i contributi dei componenti chiave. Di conseguenza, i professionisti mancano di linee guida operative per selezionare le istruzioni per i propri task target. In questo lavoro, miriamo a portare chiarezza in questo panorama separando e analizzando sistematicamente i due ingredienti fondamentali: la rappresentazione dei dati e gli algoritmi di selezione. Il nostro framework consente confronti controllati tra modelli, task e budget. Rileviamo che solo le rappresentazioni dei dati basate sul gradiente selezionano sottoinsiemi la cui somiglianza con la query predice costantemente le prestazioni attraverso dataset e modelli. Sebbene nessun metodo singolo sia dominante, le rappresentazioni basate sul gradiente abbinate a un algoritmo greedy di selezione round-robin tendono a ottenere in media le migliori prestazioni con budget ridotti, ma questi vantaggi diminuiscono con budget più ampi. Infine, unifichiamo diversi algoritmi di selezione esistenti come forme di minimizzazione approssimata della distanza tra il sottoinsieme selezionato e il set di query, e supportiamo questa visione con nuovi limiti di generalizzazione. Più in generale, i nostri risultati forniscono intuizioni cruciali e una base per una selezione dei dati più principiata nell'ottimizzazione fine degli LLM. Il codice è disponibile all'indirizzo https://github.com/dcml-lab/targeted-instruction-selection.

English

Instruction fine-tuning of large language models (LLMs) often involves selecting a subset of instruction training data from a large candidate pool, using a small query set from the target task. Despite growing interest, the literature on targeted instruction selection remains fragmented and opaque: methods vary widely in selection budgets, often omit zero-shot baselines, and frequently entangle the contributions of key components. As a result, practitioners lack actionable guidance on selecting instructions for their target tasks. In this work, we aim to bring clarity to this landscape by disentangling and systematically analyzing the two core ingredients: data representation and selection algorithms. Our framework enables controlled comparisons across models, tasks, and budgets. We find that only gradient-based data representations choose subsets whose similarity to the query consistently predicts performance across datasets and models. While no single method dominates, gradient-based representations paired with a greedy round-robin selection algorithm tend to perform best on average at low budgets, but these benefits diminish at larger budgets. Finally, we unify several existing selection algorithms as forms of approximate distance minimization between the selected subset and the query set, and support this view with new generalization bounds. More broadly, our findings provide critical insights and a foundation for more principled data selection in LLM fine-tuning. The code is available at https://github.com/dcml-lab/targeted-instruction-selection.

Uno sguardo critico alla selezione mirata delle istruzioni: districare ciò che conta (e ciò che non conta)

A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)

Abstract

Support