Una Mirada Crítica a la Selección Dirigida de Instrucciones: Desentrañando lo que Importa (y lo que No)
A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)
February 16, 2026
Autores: Nihal V. Nayak, Paula Rodriguez-Diaz, Neha Hulkund, Sara Beery, David Alvarez-Melis
cs.AI
Resumen
El ajuste fino mediante instrucciones de modelos de lenguaje grandes (LLM) a menudo implica seleccionar un subconjunto de datos de entrenamiento con instrucciones de un gran grupo de candidatos, utilizando un pequeño conjunto de consultas de la tarea objetivo. A pesar del creciente interés, la literatura sobre la selección dirigida de instrucciones sigue estando fragmentada y es opaca: los métodos varían ampliamente en los presupuestos de selección, a menudo omiten líneas base de cero disparos y con frecuencia entrelazan las contribuciones de componentes clave. Como resultado, los profesionales carecen de orientación práctica sobre cómo seleccionar instrucciones para sus tareas objetivo. En este trabajo, nuestro objetivo es aportar claridad a este panorama desentrañando y analizando sistemáticamente los dos ingredientes principales: la representación de los datos y los algoritmos de selección. Nuestro marco permite comparaciones controladas entre modelos, tareas y presupuestos. Encontramos que solo las representaciones de datos basadas en gradientes eligen subconjuntos cuya similitud con la consulta predice consistentemente el rendimiento en diferentes conjuntos de datos y modelos. Si bien ningún método individual domina, las representaciones basadas en gradientes combinadas con un algoritmo de selección codicioso por turnos tienden a desempeñarse mejor en promedio con presupuestos bajos, pero estos beneficios disminuyen con presupuestos más grandes. Finalmente, unificamos varios algoritmos de selección existentes como formas de minimización aproximada de la distancia entre el subconjunto seleccionado y el conjunto de consultas, y respaldamos esta perspectiva con nuevos límites de generalización. En términos más amplios, nuestros hallazgos proporcionan información crítica y una base para una selección de datos más fundamentada en el ajuste fino de LLM. El código está disponible en https://github.com/dcml-lab/targeted-instruction-selection.
English
Instruction fine-tuning of large language models (LLMs) often involves selecting a subset of instruction training data from a large candidate pool, using a small query set from the target task. Despite growing interest, the literature on targeted instruction selection remains fragmented and opaque: methods vary widely in selection budgets, often omit zero-shot baselines, and frequently entangle the contributions of key components. As a result, practitioners lack actionable guidance on selecting instructions for their target tasks. In this work, we aim to bring clarity to this landscape by disentangling and systematically analyzing the two core ingredients: data representation and selection algorithms. Our framework enables controlled comparisons across models, tasks, and budgets. We find that only gradient-based data representations choose subsets whose similarity to the query consistently predicts performance across datasets and models. While no single method dominates, gradient-based representations paired with a greedy round-robin selection algorithm tend to perform best on average at low budgets, but these benefits diminish at larger budgets. Finally, we unify several existing selection algorithms as forms of approximate distance minimization between the selected subset and the query set, and support this view with new generalization bounds. More broadly, our findings provide critical insights and a foundation for more principled data selection in LLM fine-tuning. The code is available at https://github.com/dcml-lab/targeted-instruction-selection.