Neurocirugía Matemática: Aislar las Habilidades de Razonamiento Matemático de los Modelos de Lenguaje Utilizando Solo Pases Hacia Adelante
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes
October 22, 2024
Autores: Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen
cs.AI
Resumen
El razonamiento matemático es un área altamente activa de la investigación en Modelos de Lenguaje de Gran Escala (LLM) porque es un sello distintivo de la inteligencia artificial. Sin embargo, pocos trabajos han explorado cómo se codifica el razonamiento matemático dentro de los parámetros de los LLM y si es una habilidad que puede ser aislada dentro de un modelo. Hacerlo podría permitir intervenciones específicas para mejorar el rendimiento matemático sin alterar el comportamiento no matemático y fomentar la comprensión de cómo los modelos codifican el razonamiento matemático. Presentamos Neurocirugía Matemática (MathNeuro), un método para aislar parámetros específicos de matemáticas en los LLM utilizando solo pases hacia adelante. MathNeuro se basa en trabajos existentes al usar pesos y activaciones para calcular la importancia de los parámetros, pero aísla los parámetros específicos de matemáticas eliminando aquellos importantes para tareas de lenguaje general. La poda de parámetros identificados por MathNeuro elimina la capacidad de razonamiento matemático de un LLM sin destruir su capacidad de lenguaje general. Escalar estos parámetros por una pequeña constante mejora el rendimiento de un LLM preentrenado o ajustado a instrucciones en un 4-17% en GSM8K sin alterar el comportamiento no matemático. MathNeuro también es eficiente en datos: la mayor parte de su efectividad se mantiene al identificar parámetros específicos de matemáticas utilizando una sola muestra. MathNeuro destaca el potencial para futuros trabajos de intervenir en parámetros específicos de matemáticas.
English
Math reasoning is a highly active area of Large Language Model (LLM) research
because it is a hallmark of artificial intelligence. However, few works have
explored how math reasoning is encoded within LLM parameters and if it is a
skill that can be isolated within a model. Doing so could allow targeted
intervention to improve math performance without altering non-math behavior and
foster understanding of how models encode math reasoning. We introduce Math
Neurosurgery (MathNeuro), a method for isolating math-specific parameters in
LLMs using only forward passes. MathNeuro builds on existing work by using
weights and activations to calculate parameter importance, but isolates
math-specific parameters by removing those important for general language
tasks. Pruning parameters MathNeuro identifies deletes a LLM's math reasoning
ability without destroying its general language ability. Scaling these
parameters by a small constant improves a pretrained or instruction-tuned LLM's
performance by 4-17% on GSM8K while leaving non-math behavior unaltered.
MathNeuro is also data efficient: most of its effectiveness holds when
identifying math-specific parameters using a single sample. MathNeuro
highlights the potential for future work to intervene on math-specific
parameters.Summary
AI-Generated Summary