Minder is Genoeg: Synthese van Diverse Data in de Feature-ruimte van LLM's

Samenvatting

De diversiteit van post-trainingdata is cruciaal voor effectieve downstreamprestaties van grote taalmodellen (LLM's). Veel bestaande benaderingen voor het samenstellen van post-trainingdata kwantificeren diversiteit met op tekst gebaseerde metrieken die linguïstische variatie vastleggen, maar dergelijke metrieken geven slechts zwakke signalen voor de taakrelevante kenmerken die de downstreamprestaties bepalen. In dit werk introduceren we Feature Activation Coverage (FAC), dat data-diversiteit meet in een interpreteerbare kenmerkenruimte. Voortbouwend op deze metriek stellen we verder een diversiteit-gestuurd datasyntheseframework voor, genaamd FAC Synthesis, dat eerst een sparse autoencoder gebruikt om ontbrekende kenmerken te identificeren vanuit een startdataset, en vervolgens synthetische samples genereert die deze kenmerken expliciet weerspiegelen. Experimenten tonen aan dat onze aanpak consistent zowel de data-diversiteit als de downstreamprestaties verbetert bij diverse taken, waaronder instructie-opvolging, toxiciteitsdetectie, beloningsmodellering en gedragssturing. Interessant genoeg identificeren we een gedeelde, interpreteerbare kenmerkenruimte over modelfamilies heen (d.w.z. LLaMA, Mistral en Qwen), wat kruismodelkennistransfer mogelijk maakt. Ons werk biedt een solide en praktische methodologie voor het verkennen van data-gedreven optimalisatie van LLM's.

English

The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approaches to constructing post-training data quantify diversity using text-based metrics that capture linguistic variation, but such metrics provide only weak signals for the task-relevant features that determine downstream performance. In this work, we introduce Feature Activation Coverage (FAC) which measures data diversity in an interpretable feature space. Building upon this metric, we further propose a diversity-driven data synthesis framework, named FAC Synthesis, that first uses a sparse autoencoder to identify missing features from a seed dataset, and then generates synthetic samples that explicitly reflect these features. Experiments show that our approach consistently improves both data diversity and downstream performance on various tasks, including instruction following, toxicity detection, reward modeling, and behavior steering. Interestingly, we identify a shared, interpretable feature space across model families (i.e., LLaMA, Mistral, and Qwen), enabling cross-model knowledge transfer. Our work provides a solid and practical methodology for exploring data-centric optimization of LLMs.

Minder is Genoeg: Synthese van Diverse Data in de Feature-ruimte van LLM's

Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

Samenvatting

Support