Studio della Generalizzazione dei Modelli Linguistici di Grande Scala con le Funzioni di Influenza
Studying Large Language Model Generalization with Influence Functions
August 7, 2023
Autori: Roger Grosse, Juhan Bae, Cem Anil, Nelson Elhage, Alex Tamkin, Amirhossein Tajdini, Benoit Steiner, Dustin Li, Esin Durmus, Ethan Perez, Evan Hubinger, Kamilė Lukošiūtė, Karina Nguyen, Nicholas Joseph, Sam McCandlish, Jared Kaplan, Samuel R. Bowman
cs.AI
Abstract
Nel tentativo di ottenere una migliore visibilità su un modello di apprendimento automatico per comprenderne e mitigarne i rischi associati, una fonte potenzialmente preziosa di evidenza è: quali esempi di addestramento contribuiscono maggiormente a un determinato comportamento? Le funzioni di influenza mirano a rispondere a un controfattuale: come cambierebbero i parametri del modello (e quindi i suoi output) se una determinata sequenza fosse aggiunta al set di addestramento? Sebbene le funzioni di influenza abbiano fornito intuizioni per modelli di piccole dimensioni, è difficile scalarle a modelli linguistici di grandi dimensioni (LLM) a causa della difficoltà di calcolare un prodotto vettore-inverso-Hessiano (IHVP). Utilizziamo l'approssimazione Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) per scalare le funzioni di influenza fino a LLM con fino a 52 miliardi di parametri. Nei nostri esperimenti, EK-FAC raggiunge un'accuratezza simile a quella degli stimatori tradizionali delle funzioni di influenza nonostante il calcolo dell'IHVP sia ordini di grandezza più veloce. Investigiamo due tecniche algoritmiche per ridurre il costo del calcolo dei gradienti delle sequenze di addestramento candidate: filtraggio TF-IDF e raggruppamento delle query. Utilizziamo le funzioni di influenza per investigare i modelli di generalizzazione degli LLM, inclusa la sparsità dei modelli di influenza, l'aumento dell'astrazione con la scala, le abilità matematiche e di programmazione, la generalizzazione cross-linguistica e il comportamento di interpretazione di ruoli. Nonostante molte forme apparentemente sofisticate di generalizzazione, identifichiamo una limitazione sorprendente: le influenze decadono quasi a zero quando l'ordine delle frasi chiave viene invertito. Nel complesso, le funzioni di influenza ci forniscono un nuovo strumento potente per studiare le proprietà di generalizzazione degli LLM.
English
When trying to gain better visibility into a machine learning model in order
to understand and mitigate the associated risks, a potentially valuable source
of evidence is: which training examples most contribute to a given behavior?
Influence functions aim to answer a counterfactual: how would the model's
parameters (and hence its outputs) change if a given sequence were added to the
training set? While influence functions have produced insights for small
models, they are difficult to scale to large language models (LLMs) due to the
difficulty of computing an inverse-Hessian-vector product (IHVP). We use the
Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)
approximation to scale influence functions up to LLMs with up to 52 billion
parameters. In our experiments, EK-FAC achieves similar accuracy to traditional
influence function estimators despite the IHVP computation being orders of
magnitude faster. We investigate two algorithmic techniques to reduce the cost
of computing gradients of candidate training sequences: TF-IDF filtering and
query batching. We use influence functions to investigate the generalization
patterns of LLMs, including the sparsity of the influence patterns, increasing
abstraction with scale, math and programming abilities, cross-lingual
generalization, and role-playing behavior. Despite many apparently
sophisticated forms of generalization, we identify a surprising limitation:
influences decay to near-zero when the order of key phrases is flipped.
Overall, influence functions give us a powerful new tool for studying the
generalization properties of LLMs.