TRACEALIGN -- Rastreando a Deriva: Atribuindo Falhas de Alinhamento a Fontes de Crenças Durante o Treinamento em LLMs
TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs
August 4, 2025
Autores: Amitava Das, Vinija Jain, Aman Chadha
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) ajustados para alinhar-se com valores humanos frequentemente exibem desvio de alinhamento, produzindo conclusões inseguras ou que violam políticas quando expostos a prompts adversariais, perturbações de decodificação ou jailbreaks parafraseados. Embora trabalhos anteriores tenham caracterizado comportamentalmente falhas de alinhamento, pouco se sabe sobre as fontes de crenças durante o treinamento que subjazem a essas falhas. Introduzimos o TraceAlign, um framework unificado para rastrear conclusões inseguras até suas causas raiz no corpus de treinamento do modelo. Central à nossa abordagem é o Índice de Conflito de Crenças (BCI), que quantifica a inconsistência semântica entre trechos gerados e políticas alinhadas, com base em documentos de treinamento recuperados usando correspondência de sufixo-array. Propomos três intervenções complementares: (i) TraceShield, um filtro de segurança em tempo de inferência que recusa conclusões com trechos de alto BCI, (ii) Perda de Desconflito de Crenças Contrastiva, um objetivo de ajuste fino contrastivo que penaliza continuações de alto BCI durante o DPO, e (iii) Prov-Decode, uma estratégia de decodificação consciente da proveniência que veta expansões de feixe previstas para gerar trechos de alto BCI. Juntas, essas defesas reduzem o desvio de alinhamento em até 85% em nosso Alignment Drift Benchmark (ADB) curado, preservando a utilidade em tarefas padrão, com delta menor que 0,2 e qualidade de recusa aprimorada. Além disso, derivamos um limite teórico superior para a probabilidade de desvio via estatísticas de trechos de sufixo-array, vinculando frequência e comprimento de memorização ao risco de reativação adversarial. O TraceAlign, portanto, fornece o primeiro kit de ferramentas escalável, rastreável e fundamentado para entender e mitigar falhas de alinhamento na fonte. Para encorajar maior exploração e desenvolvimento, disponibilizamos nossa implementação em código aberto em: https://anonymous.4open.science/r/tracealign-2DA7.
English
Large Language Models (LLMs) fine-tuned to align with human values often
exhibit alignment drift, producing unsafe or policy-violating completions when
exposed to adversarial prompts, decoding perturbations, or paraphrased
jailbreaks. While prior work has behaviorally characterized alignment failure,
little is known about the training-time belief sources underlying these
failures. We introduce TraceAlign, a unified framework for tracing unsafe
completions back to their root causes in the model's training corpus. Central
to our approach is the Belief Conflict Index (BCI), which quantifies semantic
inconsistency between generated spans and aligned policies, based on retrieved
training documents using suffix-array matching. We propose three complementary
interventions: (i) TraceShield, an inference-time safety filter that refuses
completions with high-BCI spans, (ii) Contrastive Belief Deconfliction Loss, a
contrastive fine-tuning objective penalizing high-BCI continuations during DPO,
and (iii) Prov-Decode, a provenance-aware decoding strategy that vetoes beam
expansions predicted to yield high-BCI spans. Together, these defenses reduce
alignment drift by up to 85% on our curated Alignment Drift Benchmark (ADB)
while preserving utility on standard tasks, with delta less than 0.2 and
improved refusal quality. We further derive a theoretical upper bound on drift
likelihood via suffix-array span statistics, linking memorization frequency and
length to adversarial reactivation risk. TraceAlign thus provides the first
scalable, traceable, and grounded toolkit for understanding and mitigating
alignment failures at source. To encourage further exploration and development,
we open-source our implementation at:
https://anonymous.4open.science/r/tracealign-2DA7