Анкерное декодирование: Доказательное снижение риска нарушения авторских прав для любой языковой модели
Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model
February 6, 2026
Авторы: Jacqueline He, Jonathan Hayase, Wen-tau Yih, Sewoong Oh, Luke Zettlemoyer, Pang Wei Koh
cs.AI
Аннотация
Современные языковые модели (ЯМ) склонны запоминать фрагменты обучающих данных и воспроизводить их дословно. В случаях, когда исходные данные являются конфиденциальными или защищены авторским правом, такое воспроизведение порождает проблемы, связанные с согласием и вознаграждением создателей, а также риски соответствия для разработчиков. Мы предлагаем метод «Анкорного декодирования» (Anchored Decoding) — подключаемый метод на этапе вывода для подавления дословного копирования: он позволяет выполнять декодирование для любой рискованной ЯМ, обученной на данных со смешанными лицензиями, удерживая генерацию в ограниченной близости от безопасной ЯМ, обученной на разрешительных данных. Анкорное декодирование адаптивно распределяет заданный пользователем информационный бюджет по траектории генерации и применяет пошаговые ограничения, которые обеспечивают гарантию на уровне последовательности, позволяя настраиваемый компромисс между риском и полезностью. Чтобы сделать Анкорное декодирование практически полезным, мы представляем новую безопасную модель (TinyComma 1.8B), обученную на разрешительных данных, а также Анкорное_{Байт} Декодирование (Anchored_{Byte} Decoding) — байтовый вариант нашего метода, который обеспечивает межсловарное слияние через фреймворк ByteSampler (Hayase et al., 2025). Мы оцениваем наши методы на шести парах моделей в рамках длительных оценок риска нарушения авторских прав и полезности. Анкорное и Анкорное_{Байт} Декодирование определяют новую границу Парето, сохраняя практически исходную беглость и фактическую точность, при этом устраняя до 75% измеримого разрыва в копировании (в среднем по шести метрикам копирования) между рискованным базовым уровнем и безопасным эталоном, с умеренными вычислительными накладными расходами на вывод.
English
Modern language models (LMs) tend to memorize portions of their training data and emit verbatim spans. When the underlying sources are sensitive or copyright-protected, such reproduction raises issues of consent and compensation for creators and compliance risks for developers. We propose Anchored Decoding, a plug-and-play inference-time method for suppressing verbatim copying: it enables decoding from any risky LM trained on mixed-license data by keeping generation in bounded proximity to a permissively trained safe LM. Anchored Decoding adaptively allocates a user-chosen information budget over the generation trajectory and enforces per-step constraints that yield a sequence-level guarantee, enabling a tunable risk-utility trade-off. To make Anchored Decoding practically useful, we introduce a new permissively trained safe model (TinyComma 1.8B), as well as Anchored_{Byte} Decoding, a byte-level variant of our method that enables cross-vocabulary fusion via the ByteSampler framework (Hayase et al., 2025). We evaluate our methods across six model pairs on long-form evaluations of copyright risk and utility. Anchored and Anchored_{Byte} Decoding define a new Pareto frontier, preserving near-original fluency and factuality while eliminating up to 75% of the measurable copying gap (averaged over six copying metrics) between the risky baseline and a safe reference, at a modest inference overhead.