TRACEALIGN -- Tracciare la deriva: Attribuzione degli errori di allineamento alle fonti di credenza durante l'addestramento nei modelli linguistici di grandi dimensioni
TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs
August 4, 2025
Autori: Amitava Das, Vinija Jain, Aman Chadha
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) ottimizzati per allinearsi ai valori umani spesso mostrano una deriva dell'allineamento, producendo completamenti non sicuri o in violazione delle politiche quando esposti a prompt avversari, perturbazioni di decodifica o jailbreak parafrasati. Mentre il lavoro precedente ha caratterizzato comportamentalmente il fallimento dell'allineamento, si sa poco sulle fonti di credenza durante l'addestramento che sottendono a questi fallimenti. Introduciamo TraceAlign, un framework unificato per tracciare i completamenti non sicuri fino alle loro cause profonde nel corpus di addestramento del modello. Centrale al nostro approccio è l'Indice di Conflitto di Credenza (BCI), che quantifica l'inconsistenza semantica tra gli span generati e le politiche allineate, basandosi su documenti di addestramento recuperati utilizzando il matching con array di suffissi. Proponiamo tre interventi complementari: (i) TraceShield, un filtro di sicurezza in fase di inferenza che rifiuta i completamenti con span ad alto BCI, (ii) Contrastive Belief Deconfliction Loss, un obiettivo di fine-tuning contrastivo che penalizza le continuazioni ad alto BCI durante il DPO, e (iii) Prov-Decode, una strategia di decodifica consapevole della provenienza che vieta le espansioni del beam previste per produrre span ad alto BCI. Insieme, queste difese riducono la deriva dell'allineamento fino all'85% sul nostro Alignment Drift Benchmark (ADB) curato, preservando l'utilità sui task standard, con un delta inferiore a 0,2 e una qualità di rifiuto migliorata. Deriviamo inoltre un limite superiore teorico sulla probabilità di deriva attraverso le statistiche degli span degli array di suffissi, collegando la frequenza e la lunghezza della memorizzazione al rischio di riattivazione avversaria. TraceAlign fornisce così il primo toolkit scalabile, tracciabile e fondato per comprendere e mitigare i fallimenti dell'allineamento alla fonte. Per incoraggiare ulteriori esplorazioni e sviluppi, rendiamo open-source la nostra implementazione all'indirizzo: https://anonymous.4open.science/r/tracealign-2DA7
English
Large Language Models (LLMs) fine-tuned to align with human values often
exhibit alignment drift, producing unsafe or policy-violating completions when
exposed to adversarial prompts, decoding perturbations, or paraphrased
jailbreaks. While prior work has behaviorally characterized alignment failure,
little is known about the training-time belief sources underlying these
failures. We introduce TraceAlign, a unified framework for tracing unsafe
completions back to their root causes in the model's training corpus. Central
to our approach is the Belief Conflict Index (BCI), which quantifies semantic
inconsistency between generated spans and aligned policies, based on retrieved
training documents using suffix-array matching. We propose three complementary
interventions: (i) TraceShield, an inference-time safety filter that refuses
completions with high-BCI spans, (ii) Contrastive Belief Deconfliction Loss, a
contrastive fine-tuning objective penalizing high-BCI continuations during DPO,
and (iii) Prov-Decode, a provenance-aware decoding strategy that vetoes beam
expansions predicted to yield high-BCI spans. Together, these defenses reduce
alignment drift by up to 85% on our curated Alignment Drift Benchmark (ADB)
while preserving utility on standard tasks, with delta less than 0.2 and
improved refusal quality. We further derive a theoretical upper bound on drift
likelihood via suffix-array span statistics, linking memorization frequency and
length to adversarial reactivation risk. TraceAlign thus provides the first
scalable, traceable, and grounded toolkit for understanding and mitigating
alignment failures at source. To encourage further exploration and development,
we open-source our implementation at:
https://anonymous.4open.science/r/tracealign-2DA7