Neurocirurgia Matemática: Isolando as Habilidades de Raciocínio Matemático dos Modelos de Linguagem Apenas Utilizando Passagens Diretas

Resumo

O raciocínio matemático é uma área altamente ativa da pesquisa em Modelos de Linguagem de Grande Escala (LLM) porque é uma característica marcante da inteligência artificial. No entanto, poucos trabalhos exploraram como o raciocínio matemático é codificado nos parâmetros do LLM e se é uma habilidade que pode ser isolada dentro de um modelo. Fazer isso poderia permitir intervenções direcionadas para melhorar o desempenho matemático sem alterar o comportamento não matemático e promover a compreensão de como os modelos codificam o raciocínio matemático. Apresentamos a Neurocirurgia Matemática (MathNeuro), um método para isolar parâmetros específicos de matemática em LLMs usando apenas passagens diretas. O MathNeuro se baseia em trabalhos existentes ao usar pesos e ativações para calcular a importância dos parâmetros, mas isola parâmetros específicos de matemática removendo aqueles importantes para tarefas de linguagem geral. Podar os parâmetros identificados pelo MathNeuro exclui a capacidade de raciocínio matemático de um LLM sem destruir sua capacidade de linguagem geral. Escalonar esses parâmetros por uma pequena constante melhora o desempenho de um LLM pré-treinado ou ajustado para instruções em 4-17% no GSM8K, deixando o comportamento não matemático inalterado. O MathNeuro também é eficiente em dados: grande parte de sua eficácia permanece ao identificar parâmetros específicos de matemática usando uma única amostra. O MathNeuro destaca o potencial para trabalhos futuros intervir em parâmetros específicos de matemática.

English

Math reasoning is a highly active area of Large Language Model (LLM) research because it is a hallmark of artificial intelligence. However, few works have explored how math reasoning is encoded within LLM parameters and if it is a skill that can be isolated within a model. Doing so could allow targeted intervention to improve math performance without altering non-math behavior and foster understanding of how models encode math reasoning. We introduce Math Neurosurgery (MathNeuro), a method for isolating math-specific parameters in LLMs using only forward passes. MathNeuro builds on existing work by using weights and activations to calculate parameter importance, but isolates math-specific parameters by removing those important for general language tasks. Pruning parameters MathNeuro identifies deletes a LLM's math reasoning ability without destroying its general language ability. Scaling these parameters by a small constant improves a pretrained or instruction-tuned LLM's performance by 4-17% on GSM8K while leaving non-math behavior unaltered. MathNeuro is also data efficient: most of its effectiveness holds when identifying math-specific parameters using a single sample. MathNeuro highlights the potential for future work to intervene on math-specific parameters.

Neurocirurgia Matemática: Isolando as Habilidades de Raciocínio Matemático dos Modelos de Linguagem Apenas Utilizando Passagens Diretas

Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes

Resumo

Support