Révélation des Neurones et Experts Spécifiques aux Instructions : Un Cadre Analytique pour les Capacités de Suivi d'Instructions des Modèles de Langage à Grande Échelle
Unveiling Instruction-Specific Neurons & Experts: An Analytical Framework for LLM's Instruction-Following Capabilities
May 27, 2025
Auteurs: Junyan Zhang, Yubo Gao, Yibo Yan, Jungang Li, Zhaorui Hou, Sicheng Tao, Shuliang Liu, Song Dai, Yonghua Hei, Junzhuo Li, Xuming Hu
cs.AI
Résumé
Le réglage fin des modèles de langage de grande taille (LLMs) a considérablement amélioré leurs capacités à suivre des instructions, mais les mécanismes computationnels sous-jacents qui pilotent ces améliorations restent mal compris. Cette étude examine systématiquement comment le réglage fin reconfigure les calculs des LLMs en isolant et en analysant les composants clairsemés spécifiques aux instructions, c'est-à-dire les neurones dans les modèles denses ainsi que les neurones et les experts dans les architectures de type Mixture-of-Experts (MoE). En particulier, nous introduisons HexaInst, un ensemble de données d'instructions soigneusement sélectionné et équilibré couvrant six catégories distinctes, et proposons SPARCOM, un nouveau cadre analytique comprenant trois contributions clés : (1) une méthode pour identifier ces composants clairsemés, (2) une évaluation de leur généralité fonctionnelle et de leur unicité, et (3) une comparaison systématique de leurs modifications. À travers des expériences, nous démontrons la généralité fonctionnelle, l'unicité et le rôle critique de ces composants dans l'exécution des instructions. En élucidant la relation entre les adaptations induites par le réglage fin et les substrats computationnels clairsemés, ce travail fournit des insights plus profonds sur la manière dont les LLMs internalisent le comportement de suivi d'instructions pour la communauté des LLMs dignes de confiance.
English
The finetuning of Large Language Models (LLMs) has significantly advanced
their instruction-following capabilities, yet the underlying computational
mechanisms driving these improvements remain poorly understood. This study
systematically examines how fine-tuning reconfigures LLM computations by
isolating and analyzing instruction-specific sparse components, i.e., neurons
in dense models and both neurons and experts in Mixture-of-Experts (MoE)
architectures. In particular, we introduce HexaInst, a carefully curated and
balanced instructional dataset spanning six distinct categories, and propose
SPARCOM, a novel analytical framework comprising three key contributions: (1) a
method for identifying these sparse components, (2) an evaluation of their
functional generality and uniqueness, and (3) a systematic comparison of their
alterations. Through experiments, we demonstrate functional generality,
uniqueness, and the critical role of these components in instruction execution.
By elucidating the relationship between fine-tuning-induced adaptations and
sparse computational substrates, this work provides deeper insights into how
LLMs internalize instruction-following behavior for the trustworthy LLM
community.Summary
AI-Generated Summary