ChatPaper.aiChatPaper

TRACEALIGN -- Tracer la dérive : Attribution des échecs d'alignement aux sources de croyances durant l'entraînement des LLM

TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs

August 4, 2025
papers.authors: Amitava Das, Vinija Jain, Aman Chadha
cs.AI

papers.abstract

Les grands modèles de langage (LLMs) affinés pour s'aligner sur les valeurs humaines présentent souvent une dérive d'alignement, produisant des complétions dangereuses ou violant les politiques lorsqu'ils sont exposés à des invites adverses, des perturbations de décodage ou des paraphrases de contournement. Bien que les travaux antérieurs aient caractérisé comportementalement les échecs d'alignement, peu de choses sont connues sur les sources de croyances pendant l'entraînement qui sous-tendent ces échecs. Nous introduisons TraceAlign, un cadre unifié pour retracer les complétions dangereuses jusqu'à leurs causes profondes dans le corpus d'entraînement du modèle. Au cœur de notre approche se trouve l'indice de conflit de croyance (BCI), qui quantifie l'incohérence sémantique entre les segments générés et les politiques alignées, en s'appuyant sur des documents d'entraînement récupérés via un appariement de tableaux de suffixes. Nous proposons trois interventions complémentaires : (i) TraceShield, un filtre de sécurité en temps d'inférence qui refuse les complétions contenant des segments à BCI élevé, (ii) la perte de déconfliction de croyance contrastive, un objectif d'affinage contrastif pénalisant les continuations à BCI élevé pendant l'optimisation des préférences directes (DPO), et (iii) Prov-Decode, une stratégie de décodage prenant en compte la provenance qui rejette les expansions de faisceau prédites pour produire des segments à BCI élevé. Ensemble, ces défenses réduisent la dérive d'alignement jusqu'à 85 % sur notre benchmark de dérive d'alignement (ADB) tout en préservant l'utilité sur les tâches standard, avec un delta inférieur à 0,2 et une qualité de refus améliorée. Nous dérivons également une borne supérieure théorique sur la probabilité de dérive via les statistiques des segments de tableaux de suffixes, reliant la fréquence de mémorisation et la longueur au risque de réactivation adverse. TraceAlign fournit ainsi le premier ensemble d'outils évolutif, traçable et fondé pour comprendre et atténuer les échecs d'alignement à la source. Pour encourager l'exploration et le développement ultérieurs, nous rendons notre implémentation open-source à l'adresse suivante : https://anonymous.4open.science/r/tracealign-2DA7
English
Large Language Models (LLMs) fine-tuned to align with human values often exhibit alignment drift, producing unsafe or policy-violating completions when exposed to adversarial prompts, decoding perturbations, or paraphrased jailbreaks. While prior work has behaviorally characterized alignment failure, little is known about the training-time belief sources underlying these failures. We introduce TraceAlign, a unified framework for tracing unsafe completions back to their root causes in the model's training corpus. Central to our approach is the Belief Conflict Index (BCI), which quantifies semantic inconsistency between generated spans and aligned policies, based on retrieved training documents using suffix-array matching. We propose three complementary interventions: (i) TraceShield, an inference-time safety filter that refuses completions with high-BCI spans, (ii) Contrastive Belief Deconfliction Loss, a contrastive fine-tuning objective penalizing high-BCI continuations during DPO, and (iii) Prov-Decode, a provenance-aware decoding strategy that vetoes beam expansions predicted to yield high-BCI spans. Together, these defenses reduce alignment drift by up to 85% on our curated Alignment Drift Benchmark (ADB) while preserving utility on standard tasks, with delta less than 0.2 and improved refusal quality. We further derive a theoretical upper bound on drift likelihood via suffix-array span statistics, linking memorization frequency and length to adversarial reactivation risk. TraceAlign thus provides the first scalable, traceable, and grounded toolkit for understanding and mitigating alignment failures at source. To encourage further exploration and development, we open-source our implementation at: https://anonymous.4open.science/r/tracealign-2DA7
PDF12August 6, 2025