Uma Análise Crítica da Seleção Direcionada de Instruções: Desvendando o que Importa (e o que não Importa)

Resumo

O ajuste fino por instrução de grandes modelos de linguagem (LLMs) frequentemente envolve a seleção de um subconjunto de dados de treinamento de instruções a partir de um grande conjunto de candidatos, utilizando um pequeno conjunto de consultas da tarefa-alvo. Apesar do crescente interesse, a literatura sobre seleção direcionada de instruções permanece fragmentada e opaca: os métodos variam amplamente em orçamentos de seleção, frequentemente omitem baselines *zero-shot* e, com frequência, entrelaçam as contribuições de componentes-chave. Como resultado, os profissionais carecem de orientações acionáveis para selecionar instruções para suas tarefas-alvo. Neste trabalho, visamos trazer clareza a este cenário, desagregando e analisando sistematicamente os dois ingredientes centrais: a representação dos dados e os algoritmos de seleção. Nossa estrutura permite comparações controladas entre modelos, tarefas e orçamentos. Descobrimos que apenas representações de dados baseadas em gradiente escolhem subconjuntos cuja similaridade com a consulta prevê consistentemente o desempenho em diferentes conjuntos de dados e modelos. Embora nenhum método único seja dominante, as representações baseadas em gradiente emparelhadas com um algoritmo de seleção *greedy round-robin* tendem a ter o melhor desempenho médio em orçamentos baixos, mas esses benefícios diminuem em orçamentos maiores. Por fim, unificamos vários algoritmos de seleção existentes como formas de minimização aproximada da distância entre o subconjunto selecionado e o conjunto de consultas, e apoiamos esta visão com novos limites de generalização. De forma mais ampla, nossas descobertas fornecem insights críticos e uma base para uma seleção de dados mais fundamentada no ajuste fino de LLMs. O código está disponível em https://github.com/dcml-lab/targeted-instruction-selection.

English

Instruction fine-tuning of large language models (LLMs) often involves selecting a subset of instruction training data from a large candidate pool, using a small query set from the target task. Despite growing interest, the literature on targeted instruction selection remains fragmented and opaque: methods vary widely in selection budgets, often omit zero-shot baselines, and frequently entangle the contributions of key components. As a result, practitioners lack actionable guidance on selecting instructions for their target tasks. In this work, we aim to bring clarity to this landscape by disentangling and systematically analyzing the two core ingredients: data representation and selection algorithms. Our framework enables controlled comparisons across models, tasks, and budgets. We find that only gradient-based data representations choose subsets whose similarity to the query consistently predicts performance across datasets and models. While no single method dominates, gradient-based representations paired with a greedy round-robin selection algorithm tend to perform best on average at low budgets, but these benefits diminish at larger budgets. Finally, we unify several existing selection algorithms as forms of approximate distance minimization between the selected subset and the query set, and support this view with new generalization bounds. More broadly, our findings provide critical insights and a foundation for more principled data selection in LLM fine-tuning. The code is available at https://github.com/dcml-lab/targeted-instruction-selection.

Uma Análise Crítica da Seleção Direcionada de Instruções: Desvendando o que Importa (e o que não Importa)

A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)

Resumo

Support