ChatPaper.aiChatPaper

Cómo los nuevos datos se integran en el conocimiento de los LLM y cómo diluirlos

How new data permeates LLM knowledge and how to dilute it

April 13, 2025
Autores: Chen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov, Ulrich Rueckert, Been Kim, Mark Sandler
cs.AI

Resumen

Los modelos de lenguaje de gran escala aprenden y continúan aprendiendo a través de la acumulación de actualizaciones basadas en gradientes, pero cómo las piezas individuales de nueva información afectan el conocimiento existente, llevando tanto a generalizaciones beneficiosas como a alucinaciones problemáticas, sigue siendo poco comprendido. Demostramos que, al aprender nueva información, los LLMs exhiben un efecto de "priming": aprender un nuevo hecho puede hacer que el modelo aplique ese conocimiento de manera inapropiada en contextos no relacionados. Para estudiar sistemáticamente este fenómeno, introducimos "Outlandish", un conjunto de datos cuidadosamente curado de 1320 muestras de texto diversas diseñadas para explorar cómo el nuevo conocimiento se filtra a través de la base de conocimiento existente de un LLM. Usando este conjunto de datos, mostramos que el grado de priming después de aprender nueva información puede predecirse midiendo la probabilidad de tokens de palabras clave antes del aprendizaje. Esta relación se mantiene robustamente en diferentes arquitecturas de modelos (PALM-2, Gemma, Llama), tamaños y etapas de entrenamiento. Finalmente, desarrollamos dos técnicas novedosas para modular cómo el nuevo conocimiento afecta el comportamiento existente del modelo: (1) una estrategia de aumento de texto de "escalones" y (2) un método de poda de actualizaciones "ignorar-k". Estos enfoques reducen los efectos de priming no deseados en un 50-95\% mientras preservan la capacidad del modelo para aprender nueva información. Nuestros hallazgos proporcionan tanto insights empíricos sobre cómo aprenden los LLMs como herramientas prácticas para mejorar la especificidad de la inserción de conocimiento en modelos de lenguaje. Materiales adicionales: https://sunchipsster1.github.io/projects/outlandish/
English
Large language models learn and continually learn through the accumulation of gradient-based updates, but how individual pieces of new information affect existing knowledge, leading to both beneficial generalization and problematic hallucination, remains poorly understood. We demonstrate that when learning new information, LLMs exhibit a "priming" effect: learning a new fact can cause the model to inappropriately apply that knowledge in unrelated contexts. To systematically study this phenomenon, we introduce "Outlandish," a carefully curated dataset of 1320 diverse text samples designed to probe how new knowledge permeates through an LLM's existing knowledge base. Using this dataset, we show that the degree of priming after learning new information can be predicted by measuring the token probability of key words before learning. This relationship holds robustly across different model architectures (PALM-2, Gemma, Llama), sizes, and training stages. Finally, we develop two novel techniques to modulate how new knowledge affects existing model behavior: (1) a ``stepping-stone'' text augmentation strategy and (2) an ``ignore-k'' update pruning method. These approaches reduce undesirable priming effects by 50-95\% while preserving the model's ability to learn new information. Our findings provide both empirical insights into how LLMs learn and practical tools for improving the specificity of knowledge insertion in language models. Further materials: https://sunchipsster1.github.io/projects/outlandish/

Summary

AI-Generated Summary

PDF72April 15, 2025