Meno è Abbastanza: Sintetizzare Dati Diversi nello Spazio delle Caratteristiche dei LLM

Abstract

La diversità dei dati di post-addestramento è fondamentale per prestazioni efficaci nelle attività downstream nei grandi modelli linguistici (LLM). Molti approcci esistenti per la costruzione di tali dati quantificano la diversità utilizzando metriche basate sul testo che catturano la variazione linguistica, ma tali metriche forniscono solo segnali deboli per le caratteristiche rilevanti per il compito che determinano le prestazioni downstream. In questo lavoro, introduciamo la Copertura dell'Attivazione delle Caratteristiche (FAC), che misura la diversità dei dati in uno spazio delle caratteristiche interpretabile. Basandoci su questa metrica, proponiamo ulteriormente un framework di sintesi dei dati guidato dalla diversità, denominato FAC Synthesis, che utilizza prima un autoencoder sparso per identificare le caratteristiche mancanti da un dataset di partenza (seed), e poi genera campioni sintetici che riflettono esplicitamente queste caratteristiche. Gli esperimenti mostrano che il nostro approccio migliora costantemente sia la diversità dei dati che le prestazioni downstream su varie attività, tra cui il follow-up di istruzioni, il rilevamento di tossicità, la modellazione di reward e lo steering del comportamento. Interessante notare, identifichiamo uno spazio delle caratteristiche interpretabile condiviso tra diverse famiglie di modelli (ad esempio, LLaMA, Mistral e Qwen), consentendo il trasferimento di conoscenze cross-model. Il nostro lavoro fornisce una metodologia solida e pratica per esplorare l'ottimizzazione dei LLM incentrata sui dati.

English

The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approaches to constructing post-training data quantify diversity using text-based metrics that capture linguistic variation, but such metrics provide only weak signals for the task-relevant features that determine downstream performance. In this work, we introduce Feature Activation Coverage (FAC) which measures data diversity in an interpretable feature space. Building upon this metric, we further propose a diversity-driven data synthesis framework, named FAC Synthesis, that first uses a sparse autoencoder to identify missing features from a seed dataset, and then generates synthetic samples that explicitly reflect these features. Experiments show that our approach consistently improves both data diversity and downstream performance on various tasks, including instruction following, toxicity detection, reward modeling, and behavior steering. Interestingly, we identify a shared, interpretable feature space across model families (i.e., LLaMA, Mistral, and Qwen), enabling cross-model knowledge transfer. Our work provides a solid and practical methodology for exploring data-centric optimization of LLMs.

Meno è Abbastanza: Sintetizzare Dati Diversi nello Spazio delle Caratteristiche dei LLM

Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

Abstract

Support