ChatPaper.aiChatPaper

少なくとも十分:大規模言語モデルの特徴空間における多様なデータの合成

Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

February 11, 2026
著者: Zhongzhi Li, Xuansheng Wu, Yijiang Li, Lijie Hu, Ninghao Liu
cs.AI

要旨

大規模言語モデル(LLM)における効果的な下流性能の発揮には、学習後データの多様性が重要である。既存の多くの手法では、テキストベースの指標を用いて言語的多様性を定量化するが、このような指標は下流性能を決定するタスク関連特徴に対して弱い信号しか提供しない。本研究では、解釈可能な特徴空間でデータ多様性を測定するFeature Activation Coverage(FAC)を提案する。この指標に基づき、疎なオートエンコーダーでシードデータセットから欠損特徴を特定し、これらの特徴を明示的に反映した合成サンプルを生成する多様性駆動型データ合成フレームワーク「FAC Synthesis」をさらに構築した。実験結果から、本手法が指示追従、毒性検出、報酬モデリング、行動制御などの多様なタスクにおいて、データ多様性と下流性能の両方を一貫して向上させることが示された。興味深いことに、LLaMA、Mistral、Qwenといったモデルファミリー間で共有可能な解釈可能な特徴空間を同定し、モデル間知識転移を実現した。本研究はLLMのデータ中心最適化を探求するための堅牢かつ実用的な方法論を提供するものである。
English
The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approaches to constructing post-training data quantify diversity using text-based metrics that capture linguistic variation, but such metrics provide only weak signals for the task-relevant features that determine downstream performance. In this work, we introduce Feature Activation Coverage (FAC) which measures data diversity in an interpretable feature space. Building upon this metric, we further propose a diversity-driven data synthesis framework, named FAC Synthesis, that first uses a sparse autoencoder to identify missing features from a seed dataset, and then generates synthetic samples that explicitly reflect these features. Experiments show that our approach consistently improves both data diversity and downstream performance on various tasks, including instruction following, toxicity detection, reward modeling, and behavior steering. Interestingly, we identify a shared, interpretable feature space across model families (i.e., LLaMA, Mistral, and Qwen), enabling cross-model knowledge transfer. Our work provides a solid and practical methodology for exploring data-centric optimization of LLMs.
PDF2023February 17, 2026