Moins, c'est assez : Synthétiser des données diverses dans l'espace de caractéristiques des LLM
Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs
February 11, 2026
papers.authors: Zhongzhi Li, Xuansheng Wu, Yijiang Li, Lijie Hu, Ninghao Liu
cs.AI
papers.abstract
La diversité des données post-entraînement est cruciale pour une performance efficace en aval des grands modèles de langage (LLM). De nombreuses approches existantes pour construire ces données quantifient la diversité à l'aide de métriques textuelles qui capturent la variation linguistique, mais ces métriques ne fournissent que des signaux faibles pour les caractéristiques pertinentes à la tâche qui déterminent la performance en aval. Dans ce travail, nous introduisons la Couverture de l'Activation des Caractéristiques (FAC), qui mesure la diversité des données dans un espace de caractéristiques interprétable. En nous appuyant sur cette métrique, nous proposons en outre un cadre de synthèse de données axé sur la diversité, nommé FAC Synthesis, qui utilise d'abord un autoencodeur creux pour identifier les caractéristiques manquantes dans un jeu de données de départ, puis génère des échantillons synthétiques qui reflètent explicitement ces caractéristiques. Les expériences montrent que notre approche améliore constamment à la fois la diversité des données et la performance en aval sur diverses tâches, incluant le suivi d'instructions, la détection de toxicité, la modélisation de récompense et le guidage comportemental. Fait intéressant, nous identifions un espace de caractéristiques interprétable partagé entre différentes familles de modèles (c'est-à-dire LLaMA, Mistral et Qwen), permettant un transfert de connaissances inter-modèles. Notre travail fournit une méthodologie solide et pratique pour explorer l'optimisation des LLM centrée sur les données.
English
The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approaches to constructing post-training data quantify diversity using text-based metrics that capture linguistic variation, but such metrics provide only weak signals for the task-relevant features that determine downstream performance. In this work, we introduce Feature Activation Coverage (FAC) which measures data diversity in an interpretable feature space. Building upon this metric, we further propose a diversity-driven data synthesis framework, named FAC Synthesis, that first uses a sparse autoencoder to identify missing features from a seed dataset, and then generates synthetic samples that explicitly reflect these features. Experiments show that our approach consistently improves both data diversity and downstream performance on various tasks, including instruction following, toxicity detection, reward modeling, and behavior steering. Interestingly, we identify a shared, interpretable feature space across model families (i.e., LLaMA, Mistral, and Qwen), enabling cross-model knowledge transfer. Our work provides a solid and practical methodology for exploring data-centric optimization of LLMs.