Selección de Datos de Pretrain Orientada a Objetivos mediante Gráficos Activados por Neuronas

Resumen

Las tareas cotidianas implican un objetivo, y el entrenamiento previo de modelos en torno a este objetivo es lo que los convierte en expertos. En este artículo, estudiamos el entrenamiento previo de modelos de lenguaje (LM) orientado a objetivos mediante la introducción de Neuron-Activated Graph Ranking (Clasificación basada en NAG), un marco interpretable y sin necesidad de entrenamiento para la selección de datos de pretraining orientados a un objetivo. En lugar de utilizar representaciones de caja negra, nuestro enfoque caracteriza directamente cada entrada objetivo mediante un conjunto disperso de neuronas de alto impacto en cualquier LLM estándar disponible. Concretamente, cuantificamos el impacto de las neuronas y seleccionamos las neuronas más influyentes a través de las capas en un Neuron-Activated Graph (NAG) compacto, y clasificamos los datos candidatos por similitud del NAG con los ejemplos objetivo. Realizamos experimentos en seis benchmarks, donde nuestra Clasificación basada en NAG mejora el entrenamiento previo orientado a objetivos en un 4.9% en promedio respecto al muestreo aleatorio, y también supera a los baselines más avanzados con un 5.3% de precisión en HellaSwag. También se mantiene efectiva en un entorno más aplicable de múltiples objetivos, donde nuestra mejor configuración supera a dos líneas base en un 1.1% y 4.1%, respectivamente. Además, proporcionamos un análisis exhaustivo de por qué y cómo funciona nuestro NAG; por ejemplo, desactivar las neuronas seleccionadas por NAG (solo el 0.12% del total) provoca un colapso del rendimiento del 23.5%, y restringir el NAG a la capa final incurre en una caída promedio del 4.1%, lo que indica que el NAG captura una "columna vertebral funcional" dispersa para aprender características objetivo. Publicamos el código en https://github.com/asillycat/NAG.

English

Everyday tasks come with a target, and pretraining models around this target is what turns them into experts. In this paper, we study target-oriented language model (LM) pretraining by introducing Neuron-Activated Graph Ranking (NAG-based Ranking), a training-free and interpretable framework for target pretraining data selection. Rather than using black-box representations, our approach directly characterizes each target input by a sparse set of high-impact neurons in any off-the-shelf LLMs. Concretely, we quantify neuron impact and select the most influential neurons across layers into a compact Neuron-Activated Graph (NAG), and rank candidate data by NAG similarity to target examples. We conduct experiments across six benchmarks, where our NAG-based Ranking improves target-oriented pretraining by 4.9% on average over random sampling, and also outperforms state-of-the-art baselines by 5.3% accuracy on HellaSwag. It also remains effective under a more applicable multi-target setting, where our best setup surpasses two baselines by 1.1% and 4.1%, respectively. Furthermore, we provide a comprehensive analysis on why and how our NAG works, e.g., deactivating NAG-selected neurons (only 0.12% of all) causes a 23.5% performance collapse, and restricting NAG to the final layer incurs a 4.1% average drop, indicating that NAG captures a sparse "functional backbone" for learning target features. We release the code at https://github.com/asillycat/NAG.

Selección de Datos de Pretrain Orientada a Objetivos mediante Gráficos Activados por Neuronas

Target-Oriented Pretraining Data Selection via Neuron-Activated Graph

Resumen

Support