ChatPaper.aiChatPaper

Studio della Generalizzazione dei Modelli Linguistici di Grande Scala con le Funzioni di Influenza

Studying Large Language Model Generalization with Influence Functions

August 7, 2023
Autori: Roger Grosse, Juhan Bae, Cem Anil, Nelson Elhage, Alex Tamkin, Amirhossein Tajdini, Benoit Steiner, Dustin Li, Esin Durmus, Ethan Perez, Evan Hubinger, Kamilė Lukošiūtė, Karina Nguyen, Nicholas Joseph, Sam McCandlish, Jared Kaplan, Samuel R. Bowman
cs.AI

Abstract

Nel tentativo di ottenere una migliore visibilità su un modello di apprendimento automatico per comprenderne e mitigarne i rischi associati, una fonte potenzialmente preziosa di evidenza è: quali esempi di addestramento contribuiscono maggiormente a un determinato comportamento? Le funzioni di influenza mirano a rispondere a un controfattuale: come cambierebbero i parametri del modello (e quindi i suoi output) se una determinata sequenza fosse aggiunta al set di addestramento? Sebbene le funzioni di influenza abbiano fornito intuizioni per modelli di piccole dimensioni, è difficile scalarle a modelli linguistici di grandi dimensioni (LLM) a causa della difficoltà di calcolare un prodotto vettore-inverso-Hessiano (IHVP). Utilizziamo l'approssimazione Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) per scalare le funzioni di influenza fino a LLM con fino a 52 miliardi di parametri. Nei nostri esperimenti, EK-FAC raggiunge un'accuratezza simile a quella degli stimatori tradizionali delle funzioni di influenza nonostante il calcolo dell'IHVP sia ordini di grandezza più veloce. Investigiamo due tecniche algoritmiche per ridurre il costo del calcolo dei gradienti delle sequenze di addestramento candidate: filtraggio TF-IDF e raggruppamento delle query. Utilizziamo le funzioni di influenza per investigare i modelli di generalizzazione degli LLM, inclusa la sparsità dei modelli di influenza, l'aumento dell'astrazione con la scala, le abilità matematiche e di programmazione, la generalizzazione cross-linguistica e il comportamento di interpretazione di ruoli. Nonostante molte forme apparentemente sofisticate di generalizzazione, identifichiamo una limitazione sorprendente: le influenze decadono quasi a zero quando l'ordine delle frasi chiave viene invertito. Nel complesso, le funzioni di influenza ci forniscono un nuovo strumento potente per studiare le proprietà di generalizzazione degli LLM.
English
When trying to gain better visibility into a machine learning model in order to understand and mitigate the associated risks, a potentially valuable source of evidence is: which training examples most contribute to a given behavior? Influence functions aim to answer a counterfactual: how would the model's parameters (and hence its outputs) change if a given sequence were added to the training set? While influence functions have produced insights for small models, they are difficult to scale to large language models (LLMs) due to the difficulty of computing an inverse-Hessian-vector product (IHVP). We use the Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) approximation to scale influence functions up to LLMs with up to 52 billion parameters. In our experiments, EK-FAC achieves similar accuracy to traditional influence function estimators despite the IHVP computation being orders of magnitude faster. We investigate two algorithmic techniques to reduce the cost of computing gradients of candidate training sequences: TF-IDF filtering and query batching. We use influence functions to investigate the generalization patterns of LLMs, including the sparsity of the influence patterns, increasing abstraction with scale, math and programming abilities, cross-lingual generalization, and role-playing behavior. Despite many apparently sophisticated forms of generalization, we identify a surprising limitation: influences decay to near-zero when the order of key phrases is flipped. Overall, influence functions give us a powerful new tool for studying the generalization properties of LLMs.
PDF130February 8, 2026