Meerstaps Kennisinteractieanalyse via Rank-2 Subruimte-ontvlechting

Samenvatting

Natuurlijke Taalverklaringen (NTV's) beschrijven hoe Grote Taalmodellen (GTM's) beslissingen nemen, door gebruik te maken van zowel externe Contextkennis (CK) als Parametrische Kennis (PK) die is opgeslagen in de modelgewichten. Het begrijpen van hun interactie is cruciaal voor het beoordelen van de onderbouwing van NTV's, maar dit blijft onderbelicht. Eerder onderzoek heeft grotendeels alleen eenstapsgeneratie onderzocht, typisch het eindantwoord, en heeft de PK- en CK-interactie gemodelleerd als slechts een binaire keuze in een rang-1-deelruimte. Dit ziet rijkere interactievormen over het hoofd, zoals complementaire of ondersteunende kennis. Wij stellen een nieuwe rang-2-projectiedeelruimte voor die de bijdragen van PK en CK nauwkeuriger ontwart en gebruiken deze voor de eerste multi-step analyse van kennisinteracties in langere NTV-reeksen. Experimenten op vier V&A-datasets en drie open-gewicht instruction-tuned GTM's tonen aan dat diverse kennisinteracties slecht worden gerepresenteerd in een rang-1-deelruimte, maar effectief worden vastgelegd in onze rang-2-formulering. Onze multi-step analyse onthult dat gehallucineerde NTV's sterk uitlijnen met de PK-richting, context-getrouwe NTV's PK en CK in balans houden, en Chain-of-Thought-prompting voor NTV's gegenereerde NTV's naar CK verschuift door de PK-afhankelijkheid te verminderen. Dit werk biedt het eerste raamwerk voor systematische studies van multi-step kennisinteracties in GTM's door een rijkere rang-2-deelruimte-ontwarring. Code en data: https://github.com/copenlu/pk-ck-knowledge-disentanglement.

English

Natural Language Explanations (NLEs) describe how Large Language Models (LLMs) make decisions, drawing on both external Context Knowledge (CK) and Parametric Knowledge (PK) stored in model weights. Understanding their interaction is key to assessing the grounding of NLEs, yet it remains underexplored. Prior work has largely examined only single-step generation, typically the final answer, and has modelled PK and CK interaction only as a binary choice in a rank-1 subspace. This overlooks richer forms of interaction, such as complementary or supportive knowledge. We propose a novel rank-2 projection subspace that disentangles PK and CK contributions more accurately and use it for the first multi-step analysis of knowledge interactions across longer NLE sequences. Experiments on four QA datasets and three open-weight instruction-tuned LLMs show that diverse knowledge interactions are poorly represented in a rank-1 subspace but are effectively captured in our rank-2 formulation. Our multi-step analysis reveals that hallucinated NLEs align strongly with the PK direction, context-faithful ones balance PK and CK, and Chain-of-Thought prompting for NLEs shifts generated NLEs toward CK by reducing PK reliance. This work provides the first framework for systematic studies of multi-step knowledge interactions in LLMs through a richer rank-2 subspace disentanglement. Code and data: https://github.com/copenlu/pk-ck-knowledge-disentanglement.

Meerstaps Kennisinteractieanalyse via Rank-2 Subruimte-ontvlechting

Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement

Samenvatting

Support