ChatPaper.aiChatPaper

Hoe nieuwe data doordringt in de kennis van LLM's en hoe het te verdunnen

How new data permeates LLM knowledge and how to dilute it

April 13, 2025
Auteurs: Chen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov, Ulrich Rueckert, Been Kim, Mark Sandler
cs.AI

Samenvatting

Grote taalmodellen leren en blijven leren door de accumulatie van op gradiënten gebaseerde updates, maar hoe individuele stukjes nieuwe informatie bestaande kennis beïnvloeden, wat leidt tot zowel gunstige generalisatie als problematische hallucinatie, blijft slecht begrepen. We demonstreren dat bij het leren van nieuwe informatie LLM's een "priming"-effect vertonen: het leren van een nieuw feit kan ervoor zorgen dat het model die kennis onterecht toepast in ongerelateerde contexten. Om dit fenomeen systematisch te bestuderen, introduceren we "Outlandish", een zorgvuldig samengestelde dataset van 1320 diverse tekstmonsters die is ontworpen om te onderzoeken hoe nieuwe kennis doordringt in de bestaande kennisbasis van een LLM. Met behulp van deze dataset tonen we aan dat de mate van priming na het leren van nieuwe informatie kan worden voorspeld door de tokenwaarschijnlijkheid van sleutelwoorden vóór het leren te meten. Deze relatie blijft robuust over verschillende modelarchitecturen (PALM-2, Gemma, Llama), groottes en trainingsfasen. Ten slotte ontwikkelen we twee nieuwe technieken om te moduleren hoe nieuwe kennis het bestaande modelgedrag beïnvloedt: (1) een "stepping-stone" tekstaugmentatiestrategie en (2) een "ignore-k" update-pruningmethode. Deze benaderingen verminderen ongewenste priming-effecten met 50-95\% terwijl het vermogen van het model om nieuwe informatie te leren behouden blijft. Onze bevindingen bieden zowel empirische inzichten in hoe LLM's leren als praktische tools om de specificiteit van kennisinsertie in taalmodellen te verbeteren. Verdere materialen: https://sunchipsster1.github.io/projects/outlandish/
English
Large language models learn and continually learn through the accumulation of gradient-based updates, but how individual pieces of new information affect existing knowledge, leading to both beneficial generalization and problematic hallucination, remains poorly understood. We demonstrate that when learning new information, LLMs exhibit a "priming" effect: learning a new fact can cause the model to inappropriately apply that knowledge in unrelated contexts. To systematically study this phenomenon, we introduce "Outlandish," a carefully curated dataset of 1320 diverse text samples designed to probe how new knowledge permeates through an LLM's existing knowledge base. Using this dataset, we show that the degree of priming after learning new information can be predicted by measuring the token probability of key words before learning. This relationship holds robustly across different model architectures (PALM-2, Gemma, Llama), sizes, and training stages. Finally, we develop two novel techniques to modulate how new knowledge affects existing model behavior: (1) a ``stepping-stone'' text augmentation strategy and (2) an ``ignore-k'' update pruning method. These approaches reduce undesirable priming effects by 50-95\% while preserving the model's ability to learn new information. Our findings provide both empirical insights into how LLMs learn and practical tools for improving the specificity of knowledge insertion in language models. Further materials: https://sunchipsster1.github.io/projects/outlandish/

Summary

AI-Generated Summary

PDF72April 15, 2025