Révélation des Neurones et Experts Spécifiques aux Instructions : Un Cadre Analytique pour les Capacités de Suivi d'Instructions des Modèles de Langage à Grande Échelle

Résumé

Le réglage fin des modèles de langage de grande taille (LLMs) a considérablement amélioré leurs capacités à suivre des instructions, mais les mécanismes computationnels sous-jacents qui pilotent ces améliorations restent mal compris. Cette étude examine systématiquement comment le réglage fin reconfigure les calculs des LLMs en isolant et en analysant les composants clairsemés spécifiques aux instructions, c'est-à-dire les neurones dans les modèles denses ainsi que les neurones et les experts dans les architectures de type Mixture-of-Experts (MoE). En particulier, nous introduisons HexaInst, un ensemble de données d'instructions soigneusement sélectionné et équilibré couvrant six catégories distinctes, et proposons SPARCOM, un nouveau cadre analytique comprenant trois contributions clés : (1) une méthode pour identifier ces composants clairsemés, (2) une évaluation de leur généralité fonctionnelle et de leur unicité, et (3) une comparaison systématique de leurs modifications. À travers des expériences, nous démontrons la généralité fonctionnelle, l'unicité et le rôle critique de ces composants dans l'exécution des instructions. En élucidant la relation entre les adaptations induites par le réglage fin et les substrats computationnels clairsemés, ce travail fournit des insights plus profonds sur la manière dont les LLMs internalisent le comportement de suivi d'instructions pour la communauté des LLMs dignes de confiance.

English

The finetuning of Large Language Models (LLMs) has significantly advanced their instruction-following capabilities, yet the underlying computational mechanisms driving these improvements remain poorly understood. This study systematically examines how fine-tuning reconfigures LLM computations by isolating and analyzing instruction-specific sparse components, i.e., neurons in dense models and both neurons and experts in Mixture-of-Experts (MoE) architectures. In particular, we introduce HexaInst, a carefully curated and balanced instructional dataset spanning six distinct categories, and propose SPARCOM, a novel analytical framework comprising three key contributions: (1) a method for identifying these sparse components, (2) an evaluation of their functional generality and uniqueness, and (3) a systematic comparison of their alterations. Through experiments, we demonstrate functional generality, uniqueness, and the critical role of these components in instruction execution. By elucidating the relationship between fine-tuning-induced adaptations and sparse computational substrates, this work provides deeper insights into how LLMs internalize instruction-following behavior for the trustworthy LLM community.