Weniger ist genug: Synthese vielfältiger Daten im Merkmalsraum von LLMs
Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs
February 11, 2026
papers.authors: Zhongzhi Li, Xuansheng Wu, Yijiang Li, Lijie Hu, Ninghao Liu
cs.AI
papers.abstract
Die Diversität von Nachtrainingsdaten ist entscheidend für die effektive Downstream-Leistung von großen Sprachmodellen (LLMs). Viele bestehende Ansätze zur Konstruktion von Nachtrainingsdaten quantifizieren Diversität anhand textbasierter Metriken, die linguistische Variation erfassen, doch solche Metriken liefern nur schwache Signale für die aufgabenrelevanten Merkmale, die die Downstream-Leistung bestimmen. In dieser Arbeit führen wir Feature Activation Coverage (FAC) ein, das Datenvielfalt in einem interpretierbaren Merkmalsraum misst. Aufbauend auf dieser Metrik schlagen wir weiterhin ein diversitätsgetriebenes Datensyntheseframework namens FAC Synthesis vor, das zunächst einen sparsamen Autoencoder verwendet, um fehlende Merkmale aus einem Ausgangsdatensatz zu identifizieren und dann synthetische Beispiele generiert, die diese Merkmale explizit abbilden. Experimente zeigen, dass unser Ansatz konsistent sowohl die Datenvielfalt als auch die Downstream-Leistung bei verschiedenen Aufgaben verbessert, einschließlich Befolgung von Instruktionen, Toxizitätserkennung, Belohnungsmodellierung und Verhaltenssteuerung. Interessanterweise identifizieren wir einen gemeinsamen, interpretierbaren Merkmalsraum über Modellfamilien hinweg (d.h. LLaMA, Mistral und Qwen), der modellübergreifenden Wissenstransfer ermöglicht. Unsere Arbeit bietet eine solide und praktische Methodik zur Erforschung datenzentrierter Optimierung von LLMs.
English
The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approaches to constructing post-training data quantify diversity using text-based metrics that capture linguistic variation, but such metrics provide only weak signals for the task-relevant features that determine downstream performance. In this work, we introduce Feature Activation Coverage (FAC) which measures data diversity in an interpretable feature space. Building upon this metric, we further propose a diversity-driven data synthesis framework, named FAC Synthesis, that first uses a sparse autoencoder to identify missing features from a seed dataset, and then generates synthetic samples that explicitly reflect these features. Experiments show that our approach consistently improves both data diversity and downstream performance on various tasks, including instruction following, toxicity detection, reward modeling, and behavior steering. Interestingly, we identify a shared, interpretable feature space across model families (i.e., LLaMA, Mistral, and Qwen), enabling cross-model knowledge transfer. Our work provides a solid and practical methodology for exploring data-centric optimization of LLMs.