Expliquer les modules de texte en boîte noire en langage naturel avec des modèles de langage

Résumé

Les grands modèles de langage (LLMs) ont démontré des performances prédictives remarquables pour un nombre croissant de tâches. Cependant, leur prolifération rapide et leur opacité croissante ont créé un besoin grandissant d'interprétabilité. Nous nous demandons ici si nous pouvons obtenir automatiquement des explications en langage naturel pour des modules de texte en boîte noire. Un "module de texte" est toute fonction qui associe un texte à une valeur scalaire continue, comme un sous-module au sein d'un LLM ou un modèle ajusté d'une région cérébrale. "Boîte noire" indique que nous n'avons accès qu'aux entrées/sorties du module. Nous présentons Summarize and Score (SASC), une méthode qui prend en entrée un module de texte et retourne une explication en langage naturel de la sélectivité du module ainsi qu'un score indiquant la fiabilité de l'explication. Nous étudions SASC dans trois contextes. Premièrement, nous évaluons SASC sur des modules synthétiques et constatons qu'il retrouve souvent les explications de référence. Deuxièmement, nous utilisons SASC pour expliquer des modules présents dans un modèle BERT pré-entraîné, permettant ainsi l'inspection des internes du modèle. Enfin, nous montrons que SASC peut générer des explications pour la réponse de voxels individuels en IRMf à des stimuli linguistiques, avec des applications potentielles pour la cartographie cérébrale à haute résolution. Tout le code pour utiliser SASC et reproduire les résultats est disponible sur Github.

English

Large language models (LLMs) have demonstrated remarkable prediction performance for a growing array of tasks. However, their rapid proliferation and increasing opaqueness have created a growing need for interpretability. Here, we ask whether we can automatically obtain natural language explanations for black box text modules. A "text module" is any function that maps text to a scalar continuous value, such as a submodule within an LLM or a fitted model of a brain region. "Black box" indicates that we only have access to the module's inputs/outputs. We introduce Summarize and Score (SASC), a method that takes in a text module and returns a natural language explanation of the module's selectivity along with a score for how reliable the explanation is. We study SASC in 3 contexts. First, we evaluate SASC on synthetic modules and find that it often recovers ground truth explanations. Second, we use SASC to explain modules found within a pre-trained BERT model, enabling inspection of the model's internals. Finally, we show that SASC can generate explanations for the response of individual fMRI voxels to language stimuli, with potential applications to fine-grained brain mapping. All code for using SASC and reproducing results is made available on Github.

Expliquer les modules de texte en boîte noire en langage naturel avec des modèles de langage

Explaining black box text modules in natural language with language models

Résumé

Support