Menos es Suficiente: Síntesis de Datos Diversos en el Espacio de Características de los LLM
Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs
February 11, 2026
Autores: Zhongzhi Li, Xuansheng Wu, Yijiang Li, Lijie Hu, Ninghao Liu
cs.AI
Resumen
La diversidad de los datos posteriores al entrenamiento es crucial para un rendimiento efectivo en tareas posteriores de los modelos de lenguaje grandes (LLM). Muchos enfoques existentes para construir estos datos cuantifican la diversidad mediante métricas basadas en texto que capturan la variación lingüística, pero dichas métricas solo proporcionan señales débiles sobre las características relevantes para la tarea que determinan el rendimiento final. En este trabajo, presentamos la Cobertura de Activación de Características (FAC), que mide la diversidad de datos en un espacio de características interpretable. Basándonos en esta métrica, proponemos además un marco de síntesis de datos impulsado por la diversidad, denominado FAC Synthesis, que primero utiliza un autoencoder disperso para identificar las características faltantes en un conjunto de datos inicial, y luego genera muestras sintéticas que reflejan explícitamente estas características. Los experimentos muestran que nuestro enfoque mejora consistentemente tanto la diversidad de datos como el rendimiento en diversas tareas, incluyendo el seguimiento de instrucciones, la detección de toxicidad, el modelado de recompensas y la orientación del comportamiento. Curiosamente, identificamos un espacio de características interpretable compartido entre diferentes familias de modelos (es decir, LLaMA, Mistral y Qwen), lo que permite la transferencia de conocimiento entre modelos. Nuestro trabajo proporciona una metodología sólida y práctica para explorar la optimización de los LLM centrada en los datos.
English
The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approaches to constructing post-training data quantify diversity using text-based metrics that capture linguistic variation, but such metrics provide only weak signals for the task-relevant features that determine downstream performance. In this work, we introduce Feature Activation Coverage (FAC) which measures data diversity in an interpretable feature space. Building upon this metric, we further propose a diversity-driven data synthesis framework, named FAC Synthesis, that first uses a sparse autoencoder to identify missing features from a seed dataset, and then generates synthetic samples that explicitly reflect these features. Experiments show that our approach consistently improves both data diversity and downstream performance on various tasks, including instruction following, toxicity detection, reward modeling, and behavior steering. Interestingly, we identify a shared, interpretable feature space across model families (i.e., LLaMA, Mistral, and Qwen), enabling cross-model knowledge transfer. Our work provides a solid and practical methodology for exploring data-centric optimization of LLMs.