TRACEALIGN – Die Abdrift verfolgen: Zuweisung von Alignment-Fehlern zu Trainingszeit-Glaubensquellen in LLMs
TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs
August 4, 2025
papers.authors: Amitava Das, Vinija Jain, Aman Chadha
cs.AI
papers.abstract
Große Sprachmodelle (LLMs), die feinabgestimmt wurden, um menschliche Werte zu berücksichtigen, zeigen oft eine Abweichung in der Ausrichtung (Alignment Drift), was zu unsicheren oder richtlinienverletzenden Vervollständigungen führt, wenn sie mit adversarischen Eingabeaufforderungen, Dekodierungsstörungen oder umformulierten Jailbreaks konfrontiert werden. Während frühere Arbeiten das Scheitern der Ausrichtung verhaltensbezogen charakterisiert haben, ist wenig über die Quellen der Überzeugungen während des Trainings bekannt, die diesen Fehlern zugrunde liegen. Wir stellen TraceAlign vor, ein einheitliches Framework, um unsichere Vervollständigungen auf ihre Ursachen im Trainingskorpus des Modells zurückzuverfolgen. Kern unseres Ansatzes ist der Belief Conflict Index (BCI), der semantische Inkonsistenzen zwischen generierten Textabschnitten und ausgerichteten Richtlinien quantifiziert, basierend auf abgerufenen Trainingsdokumenten unter Verwendung von Suffix-Array-Matching. Wir schlagen drei komplementäre Interventionen vor: (i) TraceShield, ein Sicherheitsfilter zur Inferenzzeit, der Vervollständigungen mit hohen BCI-Werten ablehnt, (ii) Contrastive Belief Deconfliction Loss, ein kontrastives Feinabstimmungsziel, das Fortsetzungen mit hohen BCI-Werten während des DPO bestraft, und (iii) Prov-Decode, eine herkunftsbewusste Dekodierungsstrategie, die Strahlausweitungen ablehnt, von denen vorhergesagt wird, dass sie hohe BCI-Werte erzeugen. Zusammen reduzieren diese Abwehrmaßnahmen die Ausrichtungsabweichung um bis zu 85 % auf unserem kuratierten Alignment Drift Benchmark (ADB), während die Nützlichkeit bei Standardaufgaben erhalten bleibt, mit einer Delta von weniger als 0,2 und verbesserter Ablehnungsqualität. Wir leiten weiterhin eine theoretische Obergrenze für die Wahrscheinlichkeit einer Abweichung über Suffix-Array-Textabschnittsstatistiken ab, die Häufigkeit und Länge der Speicherung mit dem Risiko der adversarischen Reaktivierung verknüpft. TraceAlign bietet somit das erste skalierbare, nachvollziehbare und fundierte Toolkit zum Verständnis und zur Minderung von Ausrichtungsfehlern an der Quelle. Um weitere Erkundungen und Entwicklungen zu fördern, stellen wir unsere Implementierung als Open Source zur Verfügung unter: https://anonymous.4open.science/r/tracealign-2DA7
English
Large Language Models (LLMs) fine-tuned to align with human values often
exhibit alignment drift, producing unsafe or policy-violating completions when
exposed to adversarial prompts, decoding perturbations, or paraphrased
jailbreaks. While prior work has behaviorally characterized alignment failure,
little is known about the training-time belief sources underlying these
failures. We introduce TraceAlign, a unified framework for tracing unsafe
completions back to their root causes in the model's training corpus. Central
to our approach is the Belief Conflict Index (BCI), which quantifies semantic
inconsistency between generated spans and aligned policies, based on retrieved
training documents using suffix-array matching. We propose three complementary
interventions: (i) TraceShield, an inference-time safety filter that refuses
completions with high-BCI spans, (ii) Contrastive Belief Deconfliction Loss, a
contrastive fine-tuning objective penalizing high-BCI continuations during DPO,
and (iii) Prov-Decode, a provenance-aware decoding strategy that vetoes beam
expansions predicted to yield high-BCI spans. Together, these defenses reduce
alignment drift by up to 85% on our curated Alignment Drift Benchmark (ADB)
while preserving utility on standard tasks, with delta less than 0.2 and
improved refusal quality. We further derive a theoretical upper bound on drift
likelihood via suffix-array span statistics, linking memorization frequency and
length to adversarial reactivation risk. TraceAlign thus provides the first
scalable, traceable, and grounded toolkit for understanding and mitigating
alignment failures at source. To encourage further exploration and development,
we open-source our implementation at:
https://anonymous.4open.science/r/tracealign-2DA7