数学神経外科:前方伝播のみを用いて言語モデルの数学推論能力を分離する
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes
October 22, 2024
著者: Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen
cs.AI
要旨
数学推論は、人工知能の特徴であるため、大規模言語モデル(LLM)研究の非常に活発な分野です。しかし、数学推論がLLMのパラメータ内にどのようにエンコードされているか、そしてそれがモデル内で孤立しているスキルであるかどうかを探究した研究はほとんどありません。これを行うことで、数学のパフォーマンスを向上させるためのターゲット指向の介入が可能になり、非数学的な振る舞いを変えることなく、モデルがどのように数学推論をエンコードしているかを理解することができます。私たちは、MathNeuro(数学ニューロサージェリー)という、LLM内の数学特有のパラメータを単にフォワードパスを使用して分離する手法を紹介します。MathNeuroは、重みと活性化を使用してパラメータの重要性を計算する既存の研究に基づいて構築されていますが、一般言語タスクに重要なパラメータを削除することで、数学特有のパラメータを分離します。MathNeuroが識別するパラメータを剪定することで、LLMの数学推論能力を破壊することなく、一般言語能力を保持します。これらのパラメータをわずかな定数でスケーリングすることにより、事前学習済みまたは指示に従って調整されたLLMのパフォーマンスを、GSM8Kで4〜17%向上させることができますが、非数学的な振る舞いを変えることはありません。MathNeuroはデータ効率も高く、数学特有のパラメータを単一のサンプルを使用して識別する際にその効果の大部分が維持されます。MathNeuroは、将来の研究が数学特有のパラメータに介入する可能性を示しています。
English
Math reasoning is a highly active area of Large Language Model (LLM) research
because it is a hallmark of artificial intelligence. However, few works have
explored how math reasoning is encoded within LLM parameters and if it is a
skill that can be isolated within a model. Doing so could allow targeted
intervention to improve math performance without altering non-math behavior and
foster understanding of how models encode math reasoning. We introduce Math
Neurosurgery (MathNeuro), a method for isolating math-specific parameters in
LLMs using only forward passes. MathNeuro builds on existing work by using
weights and activations to calculate parameter importance, but isolates
math-specific parameters by removing those important for general language
tasks. Pruning parameters MathNeuro identifies deletes a LLM's math reasoning
ability without destroying its general language ability. Scaling these
parameters by a small constant improves a pretrained or instruction-tuned LLM's
performance by 4-17% on GSM8K while leaving non-math behavior unaltered.
MathNeuro is also data efficient: most of its effectiveness holds when
identifying math-specific parameters using a single sample. MathNeuro
highlights the potential for future work to intervene on math-specific
parameters.Summary
AI-Generated Summary