TRACEALIGN -- Rastreando a Deriva: Atribuindo Falhas de Alinhamento a Fontes de Crenças Durante o Treinamento em LLMs

Resumo

Modelos de Linguagem de Grande Escala (LLMs) ajustados para alinhar-se com valores humanos frequentemente exibem desvio de alinhamento, produzindo conclusões inseguras ou que violam políticas quando expostos a prompts adversariais, perturbações de decodificação ou jailbreaks parafraseados. Embora trabalhos anteriores tenham caracterizado comportamentalmente falhas de alinhamento, pouco se sabe sobre as fontes de crenças durante o treinamento que subjazem a essas falhas. Introduzimos o TraceAlign, um framework unificado para rastrear conclusões inseguras até suas causas raiz no corpus de treinamento do modelo. Central à nossa abordagem é o Índice de Conflito de Crenças (BCI), que quantifica a inconsistência semântica entre trechos gerados e políticas alinhadas, com base em documentos de treinamento recuperados usando correspondência de sufixo-array. Propomos três intervenções complementares: (i) TraceShield, um filtro de segurança em tempo de inferência que recusa conclusões com trechos de alto BCI, (ii) Perda de Desconflito de Crenças Contrastiva, um objetivo de ajuste fino contrastivo que penaliza continuações de alto BCI durante o DPO, e (iii) Prov-Decode, uma estratégia de decodificação consciente da proveniência que veta expansões de feixe previstas para gerar trechos de alto BCI. Juntas, essas defesas reduzem o desvio de alinhamento em até 85% em nosso Alignment Drift Benchmark (ADB) curado, preservando a utilidade em tarefas padrão, com delta menor que 0,2 e qualidade de recusa aprimorada. Além disso, derivamos um limite teórico superior para a probabilidade de desvio via estatísticas de trechos de sufixo-array, vinculando frequência e comprimento de memorização ao risco de reativação adversarial. O TraceAlign, portanto, fornece o primeiro kit de ferramentas escalável, rastreável e fundamentado para entender e mitigar falhas de alinhamento na fonte. Para encorajar maior exploração e desenvolvimento, disponibilizamos nossa implementação em código aberto em: https://anonymous.4open.science/r/tracealign-2DA7.

English

Large Language Models (LLMs) fine-tuned to align with human values often exhibit alignment drift, producing unsafe or policy-violating completions when exposed to adversarial prompts, decoding perturbations, or paraphrased jailbreaks. While prior work has behaviorally characterized alignment failure, little is known about the training-time belief sources underlying these failures. We introduce TraceAlign, a unified framework for tracing unsafe completions back to their root causes in the model's training corpus. Central to our approach is the Belief Conflict Index (BCI), which quantifies semantic inconsistency between generated spans and aligned policies, based on retrieved training documents using suffix-array matching. We propose three complementary interventions: (i) TraceShield, an inference-time safety filter that refuses completions with high-BCI spans, (ii) Contrastive Belief Deconfliction Loss, a contrastive fine-tuning objective penalizing high-BCI continuations during DPO, and (iii) Prov-Decode, a provenance-aware decoding strategy that vetoes beam expansions predicted to yield high-BCI spans. Together, these defenses reduce alignment drift by up to 85% on our curated Alignment Drift Benchmark (ADB) while preserving utility on standard tasks, with delta less than 0.2 and improved refusal quality. We further derive a theoretical upper bound on drift likelihood via suffix-array span statistics, linking memorization frequency and length to adversarial reactivation risk. TraceAlign thus provides the first scalable, traceable, and grounded toolkit for understanding and mitigating alignment failures at source. To encourage further exploration and development, we open-source our implementation at: https://anonymous.4open.science/r/tracealign-2DA7

TRACEALIGN -- Rastreando a Deriva: Atribuindo Falhas de Alinhamento a Fontes de Crenças Durante o Treinamento em LLMs

TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs

Resumo

Support