Het bestuderen van generalisatie van grote taalmodelen met invloedsfuncties
Studying Large Language Model Generalization with Influence Functions
August 7, 2023
Auteurs: Roger Grosse, Juhan Bae, Cem Anil, Nelson Elhage, Alex Tamkin, Amirhossein Tajdini, Benoit Steiner, Dustin Li, Esin Durmus, Ethan Perez, Evan Hubinger, Kamilė Lukošiūtė, Karina Nguyen, Nicholas Joseph, Sam McCandlish, Jared Kaplan, Samuel R. Bowman
cs.AI
Samenvatting
Wanneer men beter inzicht probeert te krijgen in een machine learning-model om de bijbehorende risico's te begrijpen en te beperken, is een potentieel waardevolle bron van bewijs: welke trainingsvoorbeelden dragen het meest bij aan een bepaald gedrag? Invloedsfuncties proberen een tegenfeitelijke vraag te beantwoorden: hoe zouden de parameters van het model (en dus de uitvoer ervan) veranderen als een bepaalde reeks aan de trainingsset zou worden toegevoegd? Hoewel invloedsfuncties inzichten hebben opgeleverd voor kleine modellen, zijn ze moeilijk op te schalen naar grote taalmodellen (LLM's) vanwege de complexiteit van het berekenen van een inverse-Hessiaan-vectorproduct (IHVP). We gebruiken de Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)-benadering om invloedsfuncties op te schalen naar LLM's met tot wel 52 miljard parameters. In onze experimenten bereikt EK-FAC een vergelijkbare nauwkeurigheid als traditionele invloedsfunctieschatters, terwijl de IHVP-berekening vele malen sneller is. We onderzoeken twee algoritmische technieken om de kosten van het berekenen van gradiënten van kandidaat-trainingsreeksen te verlagen: TF-IDF-filtering en query-batching. We gebruiken invloedsfuncties om de generalisatiepatronen van LLM's te onderzoeken, waaronder de spaarzaamheid van de invloedspatronen, toenemende abstractie met schaal, wiskundige en programmeervaardigheden, cross-linguale generalisatie en rollenspelgedrag. Ondanks vele ogenschijnlijk geavanceerde vormen van generalisatie, identificeren we een verrassende beperking: invloeden vervagen tot bijna nul wanneer de volgorde van sleutelzinnen wordt omgedraaid. Over het algemeen bieden invloedsfuncties ons een krachtig nieuw instrument om de generalisatie-eigenschappen van LLM's te bestuderen.
English
When trying to gain better visibility into a machine learning model in order
to understand and mitigate the associated risks, a potentially valuable source
of evidence is: which training examples most contribute to a given behavior?
Influence functions aim to answer a counterfactual: how would the model's
parameters (and hence its outputs) change if a given sequence were added to the
training set? While influence functions have produced insights for small
models, they are difficult to scale to large language models (LLMs) due to the
difficulty of computing an inverse-Hessian-vector product (IHVP). We use the
Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)
approximation to scale influence functions up to LLMs with up to 52 billion
parameters. In our experiments, EK-FAC achieves similar accuracy to traditional
influence function estimators despite the IHVP computation being orders of
magnitude faster. We investigate two algorithmic techniques to reduce the cost
of computing gradients of candidate training sequences: TF-IDF filtering and
query batching. We use influence functions to investigate the generalization
patterns of LLMs, including the sparsity of the influence patterns, increasing
abstraction with scale, math and programming abilities, cross-lingual
generalization, and role-playing behavior. Despite many apparently
sophisticated forms of generalization, we identify a surprising limitation:
influences decay to near-zero when the order of key phrases is flipped.
Overall, influence functions give us a powerful new tool for studying the
generalization properties of LLMs.