Explicando módulos de texto de caixa preta em linguagem natural com modelos de linguagem

Resumo

Modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho preditivo notável em um número crescente de tarefas. No entanto, sua rápida proliferação e crescente opacidade criaram uma necessidade cada vez maior de interpretabilidade. Aqui, questionamos se podemos obter automaticamente explicações em linguagem natural para módulos de texto de caixa preta. Um "módulo de texto" é qualquer função que mapeia texto para um valor contínuo escalar, como um submódulo dentro de um LLM ou um modelo ajustado de uma região cerebral. "Caixa preta" indica que temos acesso apenas às entradas/saídas do módulo. Apresentamos o método Summarize and Score (SASC), que recebe um módulo de texto e retorna uma explicação em linguagem natural da seletividade do módulo, juntamente com uma pontuação que indica a confiabilidade da explicação. Estudamos o SASC em três contextos. Primeiro, avaliamos o SASC em módulos sintéticos e descobrimos que ele frequentemente recupera explicações de verdade fundamental. Segundo, usamos o SASC para explicar módulos encontrados dentro de um modelo BERT pré-treinado, permitindo a inspeção dos internos do modelo. Por fim, mostramos que o SASC pode gerar explicações para a resposta de voxels individuais de fMRI a estímulos linguísticos, com possíveis aplicações em mapeamento cerebral de alta resolução. Todo o código para usar o SASC e reproduzir os resultados está disponível no Github.

English

Large language models (LLMs) have demonstrated remarkable prediction performance for a growing array of tasks. However, their rapid proliferation and increasing opaqueness have created a growing need for interpretability. Here, we ask whether we can automatically obtain natural language explanations for black box text modules. A "text module" is any function that maps text to a scalar continuous value, such as a submodule within an LLM or a fitted model of a brain region. "Black box" indicates that we only have access to the module's inputs/outputs. We introduce Summarize and Score (SASC), a method that takes in a text module and returns a natural language explanation of the module's selectivity along with a score for how reliable the explanation is. We study SASC in 3 contexts. First, we evaluate SASC on synthetic modules and find that it often recovers ground truth explanations. Second, we use SASC to explain modules found within a pre-trained BERT model, enabling inspection of the model's internals. Finally, we show that SASC can generate explanations for the response of individual fMRI voxels to language stimuli, with potential applications to fine-grained brain mapping. All code for using SASC and reproducing results is made available on Github.

Explicando módulos de texto de caixa preta em linguagem natural com modelos de linguagem

Explaining black box text modules in natural language with language models

Resumo

Support