Sélection de Données de Pré-entraînement Orientée Cible via un Graphe Activé par les Neurones

Résumé

Les tâches quotidiennes s'accompagnent d'un objectif, et le pré-entraînement de modèles autour de cet objectif est ce qui les transforme en experts. Dans cet article, nous étudions le pré-entraînement de modèles de langage (LM) orienté objectif en introduisant le Classement par Graphe d'Activation Neuronale (NAG-based Ranking), un cadre d'interprétation et sans entraînement pour la sélection de données de pré-entraînement ciblées. Plutôt que d'utiliser des représentations en boîte noire, notre approche caractérise directement chaque entrée cible par un ensemble parcimonieux de neurones à fort impact dans n'importe quel grand modèle de langage (LLM) standard. Concrètement, nous quantifions l'impact des neurones et sélectionnons les neurones les plus influents à travers les couches dans un Graphe d'Activation Neuronale (NAG) compact, puis classons les données candidates par similarité NAG avec les exemples cibles. Nous menons des expériences sur six benchmarks, où notre classement basé sur NAG améliore le pré-entraînement orienté objectif de 4,9 % en moyenne par rapport à un échantillonnage aléatoire, et surpasse également l'état de l'art de 5,3 % en précision sur HellaSwag. Il reste également efficace dans un cadre multi-objectif plus applicable, où notre meilleure configuration dépasse deux méthodes de référence de 1,1 % et 4,1 % respectivement. De plus, nous fournissons une analyse complète du pourquoi et du comment notre NAG fonctionne, par exemple, la désactivation des neurones sélectionnés par NAG (seulement 0,12 % du total) provoque un effondrement des performances de 23,5 %, et la restriction du NAG à la couche finale entraîne une baisse moyenne de 4,1 %, indiquant que NAG capture une « épine dorsale fonctionnelle » parcimonieuse pour l'apprentissage des caractéristiques cibles. Nous publions le code à l'adresse https://github.com/asillycat/NAG.

English

Everyday tasks come with a target, and pretraining models around this target is what turns them into experts. In this paper, we study target-oriented language model (LM) pretraining by introducing Neuron-Activated Graph Ranking (NAG-based Ranking), a training-free and interpretable framework for target pretraining data selection. Rather than using black-box representations, our approach directly characterizes each target input by a sparse set of high-impact neurons in any off-the-shelf LLMs. Concretely, we quantify neuron impact and select the most influential neurons across layers into a compact Neuron-Activated Graph (NAG), and rank candidate data by NAG similarity to target examples. We conduct experiments across six benchmarks, where our NAG-based Ranking improves target-oriented pretraining by 4.9% on average over random sampling, and also outperforms state-of-the-art baselines by 5.3% accuracy on HellaSwag. It also remains effective under a more applicable multi-target setting, where our best setup surpasses two baselines by 1.1% and 4.1%, respectively. Furthermore, we provide a comprehensive analysis on why and how our NAG works, e.g., deactivating NAG-selected neurons (only 0.12% of all) causes a 23.5% performance collapse, and restricting NAG to the final layer incurs a 4.1% average drop, indicating that NAG captures a sparse "functional backbone" for learning target features. We release the code at https://github.com/asillycat/NAG.

Sélection de Données de Pré-entraînement Orientée Cible via un Graphe Activé par les Neurones

Target-Oriented Pretraining Data Selection via Neuron-Activated Graph

Résumé

Support