ChatPaper.aiChatPaper

TRACEALIGN — Отслеживание смещения: Атрибуция сбоев согласованности к источникам убеждений на этапе обучения в крупных языковых моделях

TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs

August 4, 2025
Авторы: Amitava Das, Vinija Jain, Aman Chadha
cs.AI

Аннотация

Крупные языковые модели (LLMs), дообученные для соответствия человеческим ценностям, часто демонстрируют дрейф согласованности, генерируя небезопасные или нарушающие политику завершения при воздействии враждебных запросов, декодирующих возмущений или перефразированных "взломов". Хотя предыдущие работы поведенчески характеризовали сбои согласованности, мало что известно о источниках убеждений во время обучения, лежащих в основе этих сбоев. Мы представляем TraceAlign — унифицированную структуру для отслеживания небезопасных завершений до их корневых причин в обучающем корпусе модели. Центральным элементом нашего подхода является Индекс Конфликта Убеждений (BCI), который количественно оценивает семантическую несогласованность между сгенерированными фрагментами и согласованными политиками на основе извлеченных обучающих документов с использованием совпадения суффиксных массивов. Мы предлагаем три взаимодополняющих вмешательства: (i) TraceShield — фильтр безопасности на этапе вывода, который отклоняет завершения с фрагментами с высоким BCI, (ii) Контрастная Функция Потери для Устранения Конфликта Убеждений — контрастная цель дообучения, штрафующая продолжения с высоким BCI во время DPO, и (iii) Prov-Decode — стратегия декодирования с учетом происхождения, которая блокирует расширения лучей, предсказанные как ведущие к фрагментам с высоким BCI. Вместе эти защиты снижают дрейф согласованности до 85% на нашем курируемом бенчмарке Alignment Drift Benchmark (ADB), сохраняя полезность на стандартных задачах с дельтой менее 0,2 и улучшая качество отказов. Мы также выводим теоретическую верхнюю границу вероятности дрейфа через статистику фрагментов суффиксных массивов, связывая частоту и длину запоминания с риском реактивации враждебных запросов. Таким образом, TraceAlign предоставляет первый масштабируемый, отслеживаемый и обоснованный инструментарий для понимания и устранения сбоев согласованности на уровне источников. Чтобы стимулировать дальнейшие исследования и разработки, мы открываем исходный код нашей реализации по адресу: https://anonymous.4open.science/r/tracealign-2DA7.
English
Large Language Models (LLMs) fine-tuned to align with human values often exhibit alignment drift, producing unsafe or policy-violating completions when exposed to adversarial prompts, decoding perturbations, or paraphrased jailbreaks. While prior work has behaviorally characterized alignment failure, little is known about the training-time belief sources underlying these failures. We introduce TraceAlign, a unified framework for tracing unsafe completions back to their root causes in the model's training corpus. Central to our approach is the Belief Conflict Index (BCI), which quantifies semantic inconsistency between generated spans and aligned policies, based on retrieved training documents using suffix-array matching. We propose three complementary interventions: (i) TraceShield, an inference-time safety filter that refuses completions with high-BCI spans, (ii) Contrastive Belief Deconfliction Loss, a contrastive fine-tuning objective penalizing high-BCI continuations during DPO, and (iii) Prov-Decode, a provenance-aware decoding strategy that vetoes beam expansions predicted to yield high-BCI spans. Together, these defenses reduce alignment drift by up to 85% on our curated Alignment Drift Benchmark (ADB) while preserving utility on standard tasks, with delta less than 0.2 and improved refusal quality. We further derive a theoretical upper bound on drift likelihood via suffix-array span statistics, linking memorization frequency and length to adversarial reactivation risk. TraceAlign thus provides the first scalable, traceable, and grounded toolkit for understanding and mitigating alignment failures at source. To encourage further exploration and development, we open-source our implementation at: https://anonymous.4open.science/r/tracealign-2DA7
PDF12August 6, 2025