TRACEALIGN -- Het traceren van de verschuiving: Het toeschrijven van afstemmingsfouten aan bronnen van overtuigingen tijdens de training in LLM's
TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs
August 4, 2025
Auteurs: Amitava Das, Vinija Jain, Aman Chadha
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) die zijn afgestemd om in lijn te zijn met menselijke waarden, vertonen vaak uitlijndrift, waarbij ze onveilige of beleidsschendende voltooiingen produceren wanneer ze worden blootgesteld aan adversariële prompts, decodeerverstoringen of geparafraseerde jailbreaks. Hoewel eerder werk het gedrag van uitlijnfouten heeft gekarakteriseerd, is er weinig bekend over de bronnen van overtuigingen tijdens de training die aan deze fouten ten grondslag liggen. Wij introduceren TraceAlign, een uniform raamwerk om onveilige voltooiingen terug te voeren naar hun oorzaken in de trainingscorpus van het model. Centraal in onze aanpak staat de Belief Conflict Index (BCI), die semantische inconsistentie tussen gegenereerde segmenten en uitgelijnde beleidsregels kwantificeert, gebaseerd op opgehaalde trainingsdocumenten met behulp van suffix-array matching. Wij stellen drie complementaire interventies voor: (i) TraceShield, een veiligheidsfilter tijdens de inferentie dat voltooiingen met hoge BCI-segmenten weigert, (ii) Contrastive Belief Deconfliction Loss, een contrastief afstemmingsdoel dat hoge BCI-voortzettingen bestraft tijdens DPO, en (iii) Prov-Decode, een herkomstbewuste decodeerstrategie die bundeluitbreidingen blokkeert waarvan wordt voorspeld dat ze hoge BCI-segmenten opleveren. Samen verminderen deze verdedigingen uitlijndrift met tot 85% op onze samengestelde Alignment Drift Benchmark (ADB), terwijl de bruikbaarheid op standaardtaken behouden blijft, met een delta van minder dan 0,2 en een verbeterde weigeringskwaliteit. We leiden verder een theoretische bovengrens af voor de waarschijnlijkheid van drift via suffix-array segmentstatistieken, waarbij we de frequentie en lengte van memorisatie koppelen aan het risico van adversariële reactivering. TraceAlign biedt daarmee de eerste schaalbare, traceerbare en onderbouwde toolkit om uitlijnfouten bij de bron te begrijpen en te mitigeren. Om verder onderzoek en ontwikkeling aan te moedigen, hebben we onze implementatie open-source gemaakt op: https://anonymous.4open.science/r/tracealign-2DA7
English
Large Language Models (LLMs) fine-tuned to align with human values often
exhibit alignment drift, producing unsafe or policy-violating completions when
exposed to adversarial prompts, decoding perturbations, or paraphrased
jailbreaks. While prior work has behaviorally characterized alignment failure,
little is known about the training-time belief sources underlying these
failures. We introduce TraceAlign, a unified framework for tracing unsafe
completions back to their root causes in the model's training corpus. Central
to our approach is the Belief Conflict Index (BCI), which quantifies semantic
inconsistency between generated spans and aligned policies, based on retrieved
training documents using suffix-array matching. We propose three complementary
interventions: (i) TraceShield, an inference-time safety filter that refuses
completions with high-BCI spans, (ii) Contrastive Belief Deconfliction Loss, a
contrastive fine-tuning objective penalizing high-BCI continuations during DPO,
and (iii) Prov-Decode, a provenance-aware decoding strategy that vetoes beam
expansions predicted to yield high-BCI spans. Together, these defenses reduce
alignment drift by up to 85% on our curated Alignment Drift Benchmark (ADB)
while preserving utility on standard tasks, with delta less than 0.2 and
improved refusal quality. We further derive a theoretical upper bound on drift
likelihood via suffix-array span statistics, linking memorization frequency and
length to adversarial reactivation risk. TraceAlign thus provides the first
scalable, traceable, and grounded toolkit for understanding and mitigating
alignment failures at source. To encourage further exploration and development,
we open-source our implementation at:
https://anonymous.4open.science/r/tracealign-2DA7