Математическая нейрохирургия: Выделение математических рассуждений языковых моделей только с помощью прямых проходов.
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes
October 22, 2024
Авторы: Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen
cs.AI
Аннотация
Математическое мышление является одной из наиболее активных областей исследований больших языковых моделей (LLM), поскольку оно является важным элементом искусственного интеллекта. Однако немногие работы исследовали, как математическое мышление закодировано в параметрах LLM и может ли оно быть выделено внутри модели как навык. Это позволило бы проводить целенаправленное вмешательство для улучшения математической производительности без изменения поведения в нематематических областях и способствовало бы пониманию того, как модели кодируют математическое мышление. Мы представляем метод Математической Нейрохирургии (MathNeuro), позволяющий выделить математические параметры в LLM с помощью только прямых проходов. MathNeuro основан на существующих работах, используя веса и активации для расчета важности параметров, но выделяет математические параметры путем удаления тех, которые важны для общих языковых задач. Обрезка параметров, выделенных MathNeuro, уничтожает способность LLM к математическому мышлению, не затрагивая его способности в области общего языка. Масштабирование этих параметров на небольшую константу улучшает производительность предварительно обученной или инструкционно настроенной LLM на 4-17% на GSM8K, не изменяя нематематического поведения. MathNeuro также эффективен с точки зрения данных: большая часть его эффективности сохраняется при выделении математических параметров с использованием одного образца. MathNeuro подчеркивает потенциал для будущих исследований по вмешательству в математические параметры.
English
Math reasoning is a highly active area of Large Language Model (LLM) research
because it is a hallmark of artificial intelligence. However, few works have
explored how math reasoning is encoded within LLM parameters and if it is a
skill that can be isolated within a model. Doing so could allow targeted
intervention to improve math performance without altering non-math behavior and
foster understanding of how models encode math reasoning. We introduce Math
Neurosurgery (MathNeuro), a method for isolating math-specific parameters in
LLMs using only forward passes. MathNeuro builds on existing work by using
weights and activations to calculate parameter importance, but isolates
math-specific parameters by removing those important for general language
tasks. Pruning parameters MathNeuro identifies deletes a LLM's math reasoning
ability without destroying its general language ability. Scaling these
parameters by a small constant improves a pretrained or instruction-tuned LLM's
performance by 4-17% on GSM8K while leaving non-math behavior unaltered.
MathNeuro is also data efficient: most of its effectiveness holds when
identifying math-specific parameters using a single sample. MathNeuro
highlights the potential for future work to intervene on math-specific
parameters.Summary
AI-Generated Summary