ChatPaper.aiChatPaper

Neurochirurgia Matematica: Isolare le Capacità di Ragionamento Matematico dei Modelli Linguistici Utilizzando Solo Passaggi in Avanti

Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes

October 22, 2024
Autori: Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen
cs.AI

Abstract

Il ragionamento matematico è un'area altamente attiva della ricerca sui Large Language Model (LLM) poiché è un tratto distintivo dell'intelligenza artificiale. Tuttavia, pochi lavori hanno esplorato come il ragionamento matematico sia codificato all'interno dei parametri dei LLM e se sia una competenza che può essere isolata all'interno di un modello. Farlo potrebbe consentire un intervento mirato per migliorare le prestazioni matematiche senza alterare il comportamento non matematico e favorire la comprensione di come i modelli codificano il ragionamento matematico. Introduciamo Math Neurosurgery (MathNeuro), un metodo per isolare i parametri specifici per la matematica nei LLM utilizzando solo passaggi in avanti. MathNeuro si basa su lavori esistenti utilizzando pesi e attivazioni per calcolare l'importanza dei parametri, ma isola i parametri specifici per la matematica rimuovendo quelli importanti per compiti linguistici generali. La potatura dei parametri identificati da MathNeuro elimina la capacità di ragionamento matematico di un LLM senza distruggere la sua capacità linguistica generale. Ridimensionando questi parametri con una costante piccola, si migliora le prestazioni di un LLM preaddestrato o addestrato istruzionalmente del 4-17% su GSM8K lasciando invariato il comportamento non matematico. MathNeuro è anche efficiente nei dati: gran parte della sua efficacia si mantiene quando si identificano i parametri specifici per la matematica utilizzando un singolo campione. MathNeuro evidenzia il potenziale per futuri interventi sui parametri specifici per la matematica.
English
Math reasoning is a highly active area of Large Language Model (LLM) research because it is a hallmark of artificial intelligence. However, few works have explored how math reasoning is encoded within LLM parameters and if it is a skill that can be isolated within a model. Doing so could allow targeted intervention to improve math performance without altering non-math behavior and foster understanding of how models encode math reasoning. We introduce Math Neurosurgery (MathNeuro), a method for isolating math-specific parameters in LLMs using only forward passes. MathNeuro builds on existing work by using weights and activations to calculate parameter importance, but isolates math-specific parameters by removing those important for general language tasks. Pruning parameters MathNeuro identifies deletes a LLM's math reasoning ability without destroying its general language ability. Scaling these parameters by a small constant improves a pretrained or instruction-tuned LLM's performance by 4-17% on GSM8K while leaving non-math behavior unaltered. MathNeuro is also data efficient: most of its effectiveness holds when identifying math-specific parameters using a single sample. MathNeuro highlights the potential for future work to intervene on math-specific parameters.

Summary

AI-Generated Summary

PDF82November 16, 2024