Критический взгляд на целенаправленный отбор инструкций: разграничение важных и несущественных факторов
A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)
February 16, 2026
Авторы: Nihal V. Nayak, Paula Rodriguez-Diaz, Neha Hulkund, Sara Beery, David Alvarez-Melis
cs.AI
Аннотация
Тонкая настройка больших языковых моделей (LLM) по инструкциям часто включает выбор подмножества обучающих данных из большого пула кандидатов с использованием небольшого запросного набора данных целевой задачи. Несмотря на растущий интерес, литература по целенаправленному отбору инструкций остается разрозненной и непрозрачной: методы сильно различаются по бюджетам отбора, часто опускают базовые нулевые сценарии (zero-shot) и нередко смешивают вклад ключевых компонентов. В результате практики лишены конкретных рекомендаций по выбору инструкций для своих целевых задач. В данной работе мы стремимся внести ясность в эту область, разделив и систематически проанализировав два ключевых аспекта: представление данных и алгоритмы отбора. Наша система позволяет проводить контролируемые сравнения across моделями, задачами и бюджетами. Мы обнаружили, что только градиентные представления данных выбирают подмножества, чье сходство с запросом последовательно предсказывает производительность across наборами данных и моделями. Хотя ни один метод не доминирует универсально, градиентные представления в сочетании с жадным циклическим алгоритмом отбора (greedy round-robin), как правило, показывают наилучшие средние результаты при малых бюджетах, но эти преимущества уменьшаются с ростом бюджета. Наконец, мы объединяем несколько существующих алгоритмов отбора как формы приближенной минимизации расстояния между выбранным подмножеством и запросным набором и подтверждаем эту точку зрения новыми обобщающими оценками (generalization bounds). В более широком смысле, наши результаты дают критически важную информацию и закладывают основу для более принципиального отбора данных при тонкой настройке LLM. Код доступен по адресу https://github.com/dcml-lab/targeted-instruction-selection.
English
Instruction fine-tuning of large language models (LLMs) often involves selecting a subset of instruction training data from a large candidate pool, using a small query set from the target task. Despite growing interest, the literature on targeted instruction selection remains fragmented and opaque: methods vary widely in selection budgets, often omit zero-shot baselines, and frequently entangle the contributions of key components. As a result, practitioners lack actionable guidance on selecting instructions for their target tasks. In this work, we aim to bring clarity to this landscape by disentangling and systematically analyzing the two core ingredients: data representation and selection algorithms. Our framework enables controlled comparisons across models, tasks, and budgets. We find that only gradient-based data representations choose subsets whose similarity to the query consistently predicts performance across datasets and models. While no single method dominates, gradient-based representations paired with a greedy round-robin selection algorithm tend to perform best on average at low budgets, but these benefits diminish at larger budgets. Finally, we unify several existing selection algorithms as forms of approximate distance minimization between the selected subset and the query set, and support this view with new generalization bounds. More broadly, our findings provide critical insights and a foundation for more principled data selection in LLM fine-tuning. The code is available at https://github.com/dcml-lab/targeted-instruction-selection.