ChatPaper.aiChatPaper

Estudando a Generalização de Modelos de Linguagem de Grande Escala com Funções de Influência

Studying Large Language Model Generalization with Influence Functions

August 7, 2023
Autores: Roger Grosse, Juhan Bae, Cem Anil, Nelson Elhage, Alex Tamkin, Amirhossein Tajdini, Benoit Steiner, Dustin Li, Esin Durmus, Ethan Perez, Evan Hubinger, Kamilė Lukošiūtė, Karina Nguyen, Nicholas Joseph, Sam McCandlish, Jared Kaplan, Samuel R. Bowman
cs.AI

Resumo

Ao buscar obter uma visão mais clara de um modelo de aprendizado de máquina para compreender e mitigar os riscos associados, uma fonte potencialmente valiosa de evidência é: quais exemplos de treinamento contribuem mais para um determinado comportamento? As funções de influência visam responder a uma questão contrafactual: como os parâmetros do modelo (e, consequentemente, suas saídas) mudariam se uma determinada sequência fosse adicionada ao conjunto de treinamento? Embora as funções de influência tenham gerado insights para modelos pequenos, elas são difíceis de escalar para modelos de linguagem de grande escala (LLMs, na sigla em inglês) devido à dificuldade de calcular um produto vetorial inverso-Hessiano (IHVP, na sigla em inglês). Utilizamos a aproximação Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) para escalar as funções de influência até LLMs com até 52 bilhões de parâmetros. Em nossos experimentos, o EK-FAC alcança uma precisão semelhante aos estimadores tradicionais de funções de influência, apesar do cálculo do IHVP ser ordens de magnitude mais rápido. Investigamos duas técnicas algorítmicas para reduzir o custo de calcular gradientes de sequências candidatas de treinamento: filtragem TF-IDF e agrupamento de consultas. Usamos funções de influência para investigar os padrões de generalização de LLMs, incluindo a esparsidade dos padrões de influência, o aumento da abstração com a escala, habilidades em matemática e programação, generalização cruzada entre idiomas e comportamento de interpretação de papéis. Apesar de muitas formas aparentemente sofisticadas de generalização, identificamos uma limitação surpreendente: as influências decaem para quase zero quando a ordem das frases-chave é invertida. No geral, as funções de influência nos fornecem uma nova ferramenta poderosa para estudar as propriedades de generalização de LLMs.
English
When trying to gain better visibility into a machine learning model in order to understand and mitigate the associated risks, a potentially valuable source of evidence is: which training examples most contribute to a given behavior? Influence functions aim to answer a counterfactual: how would the model's parameters (and hence its outputs) change if a given sequence were added to the training set? While influence functions have produced insights for small models, they are difficult to scale to large language models (LLMs) due to the difficulty of computing an inverse-Hessian-vector product (IHVP). We use the Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) approximation to scale influence functions up to LLMs with up to 52 billion parameters. In our experiments, EK-FAC achieves similar accuracy to traditional influence function estimators despite the IHVP computation being orders of magnitude faster. We investigate two algorithmic techniques to reduce the cost of computing gradients of candidate training sequences: TF-IDF filtering and query batching. We use influence functions to investigate the generalization patterns of LLMs, including the sparsity of the influence patterns, increasing abstraction with scale, math and programming abilities, cross-lingual generalization, and role-playing behavior. Despite many apparently sophisticated forms of generalization, we identify a surprising limitation: influences decay to near-zero when the order of key phrases is flipped. Overall, influence functions give us a powerful new tool for studying the generalization properties of LLMs.
PDF130February 8, 2026