Selección de Datos Basada en la Relación Señal-Ruido del Gradiente con Conciencia de la Incertidumbre para el Ajuste por Instrucción
Uncertainty-Aware Gradient Signal-to-Noise Data Selection for Instruction Tuning
January 20, 2026
Autores: Zhihang Yuan, Chengyu Yue, Long Huang, Litu Ou, Lei Shi
cs.AI
Resumen
La sintonización por instrucciones es un paradigma estándar para adaptar modelos de lenguaje grandes (LLM), pero los conjuntos de datos de instrucciones modernos son extensos, ruidosos y redundantes, lo que hace que el ajuste fino con todos los datos sea costoso y a menudo innecesario. Los métodos de selección de datos existentes o bien construyen almacenes de datos de gradientes costosos o asignan puntuaciones estáticas a partir de un proxy débil, ignorando en gran medida la incertidumbre evolutiva y, por lo tanto, pasando por alto una fuente clave de interpretabilidad de los LLM. Proponemos GRADFILTERING, un marco de selección de datos agnóstico al objetivo y consciente de la incertidumbre, que utiliza un pequeño proxy GPT-2 con un conjunto de LoRA y agrega los gradientes por ejemplo en una utilidad de Relación Señal-Ruido del Gradiente (G-SNR). Nuestro método iguala o supera a subconjuntos aleatorios y líneas de base sólidas en la mayoría de las evaluaciones de LLM-como-juez, así como en la evaluación humana. Además, los subconjuntos seleccionados por GRADFILTERING convergen más rápido que los filtros competitivos bajo el mismo presupuesto computacional, lo que refleja el beneficio de una puntuación consciente de la incertidumbre.
English
Instruction tuning is a standard paradigm for adapting large language models (LLMs), but modern instruction datasets are large, noisy, and redundant, making full-data fine-tuning costly and often unnecessary. Existing data selection methods either build expensive gradient datastores or assign static scores from a weak proxy, largely ignoring evolving uncertainty, and thus missing a key source of LLM interpretability. We propose GRADFILTERING, an objective-agnostic, uncertainty-aware data selection framework that utilizes a small GPT-2 proxy with a LoRA ensemble and aggregates per-example gradients into a Gradient Signal-to-Noise Ratio (G-SNR) utility. Our method matches or surpasses random subsets and strong baselines in most LLM-as-a-judge evaluations as well as in human assessment. Moreover, GRADFILTERING-selected subsets converge faster than competitive filters under the same compute budget, reflecting the benefit of uncertainty-aware scoring.