Mehrstufige Analyse von Wissensinteraktionen durch Rang-2-Unterraum-Disentanglement
Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement
November 3, 2025
papers.authors: Sekh Mainul Islam, Pepa Atanasova, Isabelle Augenstein
cs.AI
papers.abstract
Natürlichsprachliche Erklärungen (Natural Language Explanations, NLEs) beschreiben, wie Große Sprachmodelle (Large Language Models, LLMs) Entscheidungen treffen, indem sie sowohl externes Kontextwissen (Context Knowledge, CK) als auch parametrisches Wissen (Parametric Knowledge, PK), das in Modellgewichten gespeichert ist, heranziehen. Das Verständnis ihrer Interaktion ist entscheidend für die Bewertung der Fundierung von NLEs, dennoch wurde dies bisher kaum erforscht. Bisherige Arbeiten haben größtenteils nur Einzelschritt-Generierung untersucht, typischerweise die finale Antwort, und die PK- und CK-Interaktion lediglich als binäre Wahl in einem Rang-1-Unterraum modelliert. Dies übersieht reichere Interaktionsformen, wie komplementäres oder unterstützendes Wissen. Wir schlagen einen neuartigen Rang-2-Projektionsunterraum vor, der die Beiträge von PK und CK genauer entwirrt, und nutzen ihn für die erste Mehrschritt-Analyse von Wissensinteraktionen über längere NLE-Sequenzen hinweg. Experimente mit vier QA-Datensätzen und drei Open-Weight-Instruktions-finetunierten LLMs zeigen, dass diverse Wissensinteraktionen in einem Rang-1-Unterraum schlecht repräsentiert sind, in unserer Rang-2-Formulierung jedoch effektiv erfasst werden. Unsere Mehrschritt-Analyse zeigt, dass halluzinierte NLEs stark mit der PK-Richtung übereinstimmen, kontexttreue NLEs PK und CK ausbalancieren, und Chain-of-Thought-Prompting für NLEs die generierten NLEs durch Reduzierung der PK-Abhängigkeit in Richtung CK verschiebt. Diese Arbeit bietet den ersten Rahmen für systematische Studien von Mehrschritt-Wissensinteraktionen in LLMs durch eine reichere Entwirrung in einem Rang-2-Unterraum. Code und Daten: https://github.com/copenlu/pk-ck-knowledge-disentanglement.
English
Natural Language Explanations (NLEs) describe how Large Language Models
(LLMs) make decisions, drawing on both external Context Knowledge (CK) and
Parametric Knowledge (PK) stored in model weights. Understanding their
interaction is key to assessing the grounding of NLEs, yet it remains
underexplored. Prior work has largely examined only single-step generation,
typically the final answer, and has modelled PK and CK interaction only as a
binary choice in a rank-1 subspace. This overlooks richer forms of interaction,
such as complementary or supportive knowledge. We propose a novel rank-2
projection subspace that disentangles PK and CK contributions more accurately
and use it for the first multi-step analysis of knowledge interactions across
longer NLE sequences. Experiments on four QA datasets and three open-weight
instruction-tuned LLMs show that diverse knowledge interactions are poorly
represented in a rank-1 subspace but are effectively captured in our rank-2
formulation. Our multi-step analysis reveals that hallucinated NLEs align
strongly with the PK direction, context-faithful ones balance PK and CK, and
Chain-of-Thought prompting for NLEs shifts generated NLEs toward CK by reducing
PK reliance. This work provides the first framework for systematic studies of
multi-step knowledge interactions in LLMs through a richer rank-2 subspace
disentanglement. Code and data:
https://github.com/copenlu/pk-ck-knowledge-disentanglement.