Neurocirurgia Matemática: Isolando as Habilidades de Raciocínio Matemático dos Modelos de Linguagem Apenas Utilizando Passagens Diretas
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes
October 22, 2024
Autores: Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen
cs.AI
Resumo
O raciocínio matemático é uma área altamente ativa da pesquisa em Modelos de Linguagem de Grande Escala (LLM) porque é uma característica marcante da inteligência artificial. No entanto, poucos trabalhos exploraram como o raciocínio matemático é codificado nos parâmetros do LLM e se é uma habilidade que pode ser isolada dentro de um modelo. Fazer isso poderia permitir intervenções direcionadas para melhorar o desempenho matemático sem alterar o comportamento não matemático e promover a compreensão de como os modelos codificam o raciocínio matemático. Apresentamos a Neurocirurgia Matemática (MathNeuro), um método para isolar parâmetros específicos de matemática em LLMs usando apenas passagens diretas. O MathNeuro se baseia em trabalhos existentes ao usar pesos e ativações para calcular a importância dos parâmetros, mas isola parâmetros específicos de matemática removendo aqueles importantes para tarefas de linguagem geral. Podar os parâmetros identificados pelo MathNeuro exclui a capacidade de raciocínio matemático de um LLM sem destruir sua capacidade de linguagem geral. Escalonar esses parâmetros por uma pequena constante melhora o desempenho de um LLM pré-treinado ou ajustado para instruções em 4-17% no GSM8K, deixando o comportamento não matemático inalterado. O MathNeuro também é eficiente em dados: grande parte de sua eficácia permanece ao identificar parâmetros específicos de matemática usando uma única amostra. O MathNeuro destaca o potencial para trabalhos futuros intervir em parâmetros específicos de matemática.
English
Math reasoning is a highly active area of Large Language Model (LLM) research
because it is a hallmark of artificial intelligence. However, few works have
explored how math reasoning is encoded within LLM parameters and if it is a
skill that can be isolated within a model. Doing so could allow targeted
intervention to improve math performance without altering non-math behavior and
foster understanding of how models encode math reasoning. We introduce Math
Neurosurgery (MathNeuro), a method for isolating math-specific parameters in
LLMs using only forward passes. MathNeuro builds on existing work by using
weights and activations to calculate parameter importance, but isolates
math-specific parameters by removing those important for general language
tasks. Pruning parameters MathNeuro identifies deletes a LLM's math reasoning
ability without destroying its general language ability. Scaling these
parameters by a small constant improves a pretrained or instruction-tuned LLM's
performance by 4-17% on GSM8K while leaving non-math behavior unaltered.
MathNeuro is also data efficient: most of its effectiveness holds when
identifying math-specific parameters using a single sample. MathNeuro
highlights the potential for future work to intervene on math-specific
parameters.Summary
AI-Generated Summary