Menos é Suficiente: Sintetizando Dados Diversos no Espaço de Características de LLMs

Resumo

A diversidade dos dados de pós-treinamento é crucial para um desempenho eficaz em tarefas subsequentes em modelos de linguagem de grande escala (LLMs). Muitas abordagens existentes para a construção desses dados quantificam a diversidade usando métricas baseadas em texto que capturam a variação linguística, mas tais métricas fornecem apenas sinais fracos para as características relevantes à tarefa que determinam o desempenho final. Neste trabalho, introduzimos a Cobertura de Ativação de Características (FAC), que mede a diversidade dos dados em um espaço de características interpretável. Com base nesta métrica, propomos ainda uma estrutura de síntese de dados orientada pela diversidade, denominada FAC Synthesis, que primeiro usa um autoencoder esparso para identificar características em falta a partir de um conjunto de dados inicial e, em seguida, gera amostras sintéticas que refletem explicitamente essas características. Os experimentos mostram que a nossa abordagem melhora consistentemente tanto a diversidade dos dados como o desempenho em várias tarefas, incluindo seguimento de instruções, deteção de toxicidade, modelação de recompensa e orientação de comportamento. Curiosamente, identificamos um espaço de características interpretável partilhado entre famílias de modelos (ou seja, LLaMA, Mistral e Qwen), permitindo a transferência de conhecimento entre modelos. O nosso trabalho fornece uma metodologia sólida e prática para explorar a otimização de LLMs centrada nos dados.

English

The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approaches to constructing post-training data quantify diversity using text-based metrics that capture linguistic variation, but such metrics provide only weak signals for the task-relevant features that determine downstream performance. In this work, we introduce Feature Activation Coverage (FAC) which measures data diversity in an interpretable feature space. Building upon this metric, we further propose a diversity-driven data synthesis framework, named FAC Synthesis, that first uses a sparse autoencoder to identify missing features from a seed dataset, and then generates synthetic samples that explicitly reflect these features. Experiments show that our approach consistently improves both data diversity and downstream performance on various tasks, including instruction following, toxicity detection, reward modeling, and behavior steering. Interestingly, we identify a shared, interpretable feature space across model families (i.e., LLaMA, Mistral, and Qwen), enabling cross-model knowledge transfer. Our work provides a solid and practical methodology for exploring data-centric optimization of LLMs.

Menos é Suficiente: Sintetizando Dados Diversos no Espaço de Características de LLMs

Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

Resumo

Support