TRACEALIGN – Die Abdrift verfolgen: Zuweisung von Alignment-Fehlern zu Trainingszeit-Glaubensquellen in LLMs

papers.abstract

Große Sprachmodelle (LLMs), die feinabgestimmt wurden, um menschliche Werte zu berücksichtigen, zeigen oft eine Abweichung in der Ausrichtung (Alignment Drift), was zu unsicheren oder richtlinienverletzenden Vervollständigungen führt, wenn sie mit adversarischen Eingabeaufforderungen, Dekodierungsstörungen oder umformulierten Jailbreaks konfrontiert werden. Während frühere Arbeiten das Scheitern der Ausrichtung verhaltensbezogen charakterisiert haben, ist wenig über die Quellen der Überzeugungen während des Trainings bekannt, die diesen Fehlern zugrunde liegen. Wir stellen TraceAlign vor, ein einheitliches Framework, um unsichere Vervollständigungen auf ihre Ursachen im Trainingskorpus des Modells zurückzuverfolgen. Kern unseres Ansatzes ist der Belief Conflict Index (BCI), der semantische Inkonsistenzen zwischen generierten Textabschnitten und ausgerichteten Richtlinien quantifiziert, basierend auf abgerufenen Trainingsdokumenten unter Verwendung von Suffix-Array-Matching. Wir schlagen drei komplementäre Interventionen vor: (i) TraceShield, ein Sicherheitsfilter zur Inferenzzeit, der Vervollständigungen mit hohen BCI-Werten ablehnt, (ii) Contrastive Belief Deconfliction Loss, ein kontrastives Feinabstimmungsziel, das Fortsetzungen mit hohen BCI-Werten während des DPO bestraft, und (iii) Prov-Decode, eine herkunftsbewusste Dekodierungsstrategie, die Strahlausweitungen ablehnt, von denen vorhergesagt wird, dass sie hohe BCI-Werte erzeugen. Zusammen reduzieren diese Abwehrmaßnahmen die Ausrichtungsabweichung um bis zu 85 % auf unserem kuratierten Alignment Drift Benchmark (ADB), während die Nützlichkeit bei Standardaufgaben erhalten bleibt, mit einer Delta von weniger als 0,2 und verbesserter Ablehnungsqualität. Wir leiten weiterhin eine theoretische Obergrenze für die Wahrscheinlichkeit einer Abweichung über Suffix-Array-Textabschnittsstatistiken ab, die Häufigkeit und Länge der Speicherung mit dem Risiko der adversarischen Reaktivierung verknüpft. TraceAlign bietet somit das erste skalierbare, nachvollziehbare und fundierte Toolkit zum Verständnis und zur Minderung von Ausrichtungsfehlern an der Quelle. Um weitere Erkundungen und Entwicklungen zu fördern, stellen wir unsere Implementierung als Open Source zur Verfügung unter: https://anonymous.4open.science/r/tracealign-2DA7

English

Large Language Models (LLMs) fine-tuned to align with human values often exhibit alignment drift, producing unsafe or policy-violating completions when exposed to adversarial prompts, decoding perturbations, or paraphrased jailbreaks. While prior work has behaviorally characterized alignment failure, little is known about the training-time belief sources underlying these failures. We introduce TraceAlign, a unified framework for tracing unsafe completions back to their root causes in the model's training corpus. Central to our approach is the Belief Conflict Index (BCI), which quantifies semantic inconsistency between generated spans and aligned policies, based on retrieved training documents using suffix-array matching. We propose three complementary interventions: (i) TraceShield, an inference-time safety filter that refuses completions with high-BCI spans, (ii) Contrastive Belief Deconfliction Loss, a contrastive fine-tuning objective penalizing high-BCI continuations during DPO, and (iii) Prov-Decode, a provenance-aware decoding strategy that vetoes beam expansions predicted to yield high-BCI spans. Together, these defenses reduce alignment drift by up to 85% on our curated Alignment Drift Benchmark (ADB) while preserving utility on standard tasks, with delta less than 0.2 and improved refusal quality. We further derive a theoretical upper bound on drift likelihood via suffix-array span statistics, linking memorization frequency and length to adversarial reactivation risk. TraceAlign thus provides the first scalable, traceable, and grounded toolkit for understanding and mitigating alignment failures at source. To encourage further exploration and development, we open-source our implementation at: https://anonymous.4open.science/r/tracealign-2DA7

TRACEALIGN – Die Abdrift verfolgen: Zuweisung von Alignment-Fehlern zu Trainingszeit-Glaubensquellen in LLMs

TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs

papers.abstract

Support