Eine kritische Betrachtung zielgerichteter Instruktionsauswahl: Was wirklich zählt (und was nicht)
A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)
February 16, 2026
papers.authors: Nihal V. Nayak, Paula Rodriguez-Diaz, Neha Hulkund, Sara Beery, David Alvarez-Melis
cs.AI
papers.abstract
Das Instruction Fine-Tuning großer Sprachmodelle (LLMs) umfasst häufig die Auswahl einer Teilmenge von Instruktions-Trainingsdaten aus einem großen Kandidatenpool unter Verwendung einer kleinen Abfragemenge (Query Set) der Zielaufgabe. Trotz wachsendem Interesses ist die Literatur zur gezielten Instruktionsauswahl nach wie vor fragmentiert und undurchsichtig: Die Methoden variieren stark in ihren Auswahlbudgets, lassen oft Zero-Shot-Baselines aus und vermischen häufig die Beiträge Schlüsselkomponenten. In der Praxis fehlt es daher an umsetzbaren Leitlinien für die Auswahl von Instruktionen für spezifische Aufgaben. In dieser Arbeit wollen wir Klarheit in dieses Feld bringen, indem wir die beiden Kernkomponenten entflechten und systematisch analysieren: Datenrepräsentation und Auswahlalgorithmen. Unser Framework ermöglicht kontrollierte Vergleiche über Modelle, Aufgaben und Budgets hinweg. Wir stellen fest, dass nur gradientenbasierte Datenrepräsentationen Teilmengen auswählen, deren Ähnlichkeit zur Abfragemenge die Leistung konsistent über Datensätze und Modelle hinweg vorhersagt. Während keine einzelne Methode durchgängig überlegen ist, schneiden gradientenbasierte Repräsentationen in Kombination mit einem greedy Round-Robin-Auswahlalgorithmus bei niedrigen Budgets durchschnittlich am besten ab; diese Vorteile schwinden jedoch bei größeren Budgets. Schließlich fassen wir mehrere bestehende Auswahlalgorithmen als Formen der approximativen Distanzminimierung zwischen der ausgewählten Teilmenge und der Abfragemenge zusammen und untermauern diese Sichtweise mit neuen Generalisierungsschranken. Im weiteren Sinne liefern unsere Ergebnisse kritische Einblicke und eine Grundlage für eine prinzipiellere Datenauswahl beim Fine-Tuning von LLMs. Der Code ist verfügbar unter https://github.com/dcml-lab/targeted-instruction-selection.
English
Instruction fine-tuning of large language models (LLMs) often involves selecting a subset of instruction training data from a large candidate pool, using a small query set from the target task. Despite growing interest, the literature on targeted instruction selection remains fragmented and opaque: methods vary widely in selection budgets, often omit zero-shot baselines, and frequently entangle the contributions of key components. As a result, practitioners lack actionable guidance on selecting instructions for their target tasks. In this work, we aim to bring clarity to this landscape by disentangling and systematically analyzing the two core ingredients: data representation and selection algorithms. Our framework enables controlled comparisons across models, tasks, and budgets. We find that only gradient-based data representations choose subsets whose similarity to the query consistently predicts performance across datasets and models. While no single method dominates, gradient-based representations paired with a greedy round-robin selection algorithm tend to perform best on average at low budgets, but these benefits diminish at larger budgets. Finally, we unify several existing selection algorithms as forms of approximate distance minimization between the selected subset and the query set, and support this view with new generalization bounds. More broadly, our findings provide critical insights and a foundation for more principled data selection in LLM fine-tuning. The code is available at https://github.com/dcml-lab/targeted-instruction-selection.