ChatPaper.aiChatPaper

Como novos dados permeiam o conhecimento de LLMs e como diluí-los

How new data permeates LLM knowledge and how to dilute it

April 13, 2025
Autores: Chen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov, Ulrich Rueckert, Been Kim, Mark Sandler
cs.AI

Resumo

Modelos de linguagem de grande escala aprendem e continuam a aprender através da acumulação de atualizações baseadas em gradientes, mas como informações individuais novas afetam o conhecimento existente, levando tanto à generalização benéfica quanto à alucinação problemática, ainda é pouco compreendido. Demonstramos que, ao aprender novas informações, os LLMs exibem um efeito de "priming": aprender um novo fato pode fazer com que o modelo aplique inadequadamente esse conhecimento em contextos não relacionados. Para estudar sistematicamente esse fenômeno, introduzimos "Outlandish", um conjunto de dados cuidadosamente curado de 1320 amostras de texto diversificadas projetadas para investigar como o novo conhecimento permeia a base de conhecimento existente de um LLM. Usando esse conjunto de dados, mostramos que o grau de priming após aprender novas informações pode ser previsto medindo a probabilidade de tokens de palavras-chave antes do aprendizado. Essa relação se mantém robustamente em diferentes arquiteturas de modelos (PALM-2, Gemma, Llama), tamanhos e estágios de treinamento. Por fim, desenvolvemos duas técnicas novas para modular como o novo conhecimento afeta o comportamento existente do modelo: (1) uma estratégia de aumento de texto "stepping-stone" e (2) um método de poda de atualizações "ignore-k". Essas abordagens reduzem os efeitos indesejáveis de priming em 50-95%, preservando a capacidade do modelo de aprender novas informações. Nossas descobertas fornecem insights empíricos sobre como os LLMs aprendem e ferramentas práticas para melhorar a especificidade da inserção de conhecimento em modelos de linguagem. Materiais adicionais: https://sunchipsster1.github.io/projects/outlandish/
English
Large language models learn and continually learn through the accumulation of gradient-based updates, but how individual pieces of new information affect existing knowledge, leading to both beneficial generalization and problematic hallucination, remains poorly understood. We demonstrate that when learning new information, LLMs exhibit a "priming" effect: learning a new fact can cause the model to inappropriately apply that knowledge in unrelated contexts. To systematically study this phenomenon, we introduce "Outlandish," a carefully curated dataset of 1320 diverse text samples designed to probe how new knowledge permeates through an LLM's existing knowledge base. Using this dataset, we show that the degree of priming after learning new information can be predicted by measuring the token probability of key words before learning. This relationship holds robustly across different model architectures (PALM-2, Gemma, Llama), sizes, and training stages. Finally, we develop two novel techniques to modulate how new knowledge affects existing model behavior: (1) a ``stepping-stone'' text augmentation strategy and (2) an ``ignore-k'' update pruning method. These approaches reduce undesirable priming effects by 50-95\% while preserving the model's ability to learn new information. Our findings provide both empirical insights into how LLMs learn and practical tools for improving the specificity of knowledge insertion in language models. Further materials: https://sunchipsster1.github.io/projects/outlandish/

Summary

AI-Generated Summary

PDF72April 15, 2025