Как новые данные проникают в знания языковых моделей и как их разбавить
How new data permeates LLM knowledge and how to dilute it
April 13, 2025
Авторы: Chen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov, Ulrich Rueckert, Been Kim, Mark Sandler
cs.AI
Аннотация
Крупные языковые модели обучаются и продолжают обучаться за счет накопления обновлений на основе градиентов, однако то, как отдельные фрагменты новой информации влияют на существующие знания, приводя как к полезному обобщению, так и к проблематичным галлюцинациям, остается малоизученным. Мы демонстрируем, что при изучении новой информации LLM проявляют эффект "прайминга": изучение нового факта может привести к неадекватному применению этого знания в несвязанных контекстах. Для систематического изучения этого феномена мы представляем "Outlandish" — тщательно отобранный набор данных из 1320 разнообразных текстовых образцов, предназначенных для исследования того, как новые знания проникают в существующую базу знаний LLM. Используя этот набор данных, мы показываем, что степень прайминга после изучения новой информации может быть предсказана путем измерения вероятности токенов ключевых слов до обучения. Эта зависимость устойчиво сохраняется для различных архитектур моделей (PALM-2, Gemma, Llama), их размеров и этапов обучения. Наконец, мы разрабатываем два новых метода для модуляции того, как новые знания влияют на существующее поведение модели: (1) стратегию текстовой аугментации "ступенек" и (2) метод обрезки обновлений "ignore-k". Эти подходы снижают нежелательные эффекты прайминга на 50-95%, сохраняя при этом способность модели изучать новую информацию. Наши результаты предоставляют как эмпирические инсайты в процесс обучения LLM, так и практические инструменты для повышения специфичности вставки знаний в языковые модели. Дополнительные материалы: https://sunchipsster1.github.io/projects/outlandish/
English
Large language models learn and continually learn through the accumulation of
gradient-based updates, but how individual pieces of new information affect
existing knowledge, leading to both beneficial generalization and problematic
hallucination, remains poorly understood. We demonstrate that when learning new
information, LLMs exhibit a "priming" effect: learning a new fact can cause the
model to inappropriately apply that knowledge in unrelated contexts. To
systematically study this phenomenon, we introduce "Outlandish," a carefully
curated dataset of 1320 diverse text samples designed to probe how new
knowledge permeates through an LLM's existing knowledge base. Using this
dataset, we show that the degree of priming after learning new information can
be predicted by measuring the token probability of key words before learning.
This relationship holds robustly across different model architectures (PALM-2,
Gemma, Llama), sizes, and training stages. Finally, we develop two novel
techniques to modulate how new knowledge affects existing model behavior: (1) a
``stepping-stone'' text augmentation strategy and (2) an ``ignore-k'' update
pruning method. These approaches reduce undesirable priming effects by 50-95\%
while preserving the model's ability to learn new information. Our findings
provide both empirical insights into how LLMs learn and practical tools for
improving the specificity of knowledge insertion in language models. Further
materials: https://sunchipsster1.github.io/projects/outlandish/Summary
AI-Generated Summary