Décodage Ancré : Réduire de Manière Probable les Risques de Droit d'Auteur pour Tout Modèle de Langage
Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model
February 6, 2026
papers.authors: Jacqueline He, Jonathan Hayase, Wen-tau Yih, Sewoong Oh, Luke Zettlemoyer, Pang Wei Koh
cs.AI
papers.abstract
Les modèles de langage modernes (LM) ont tendance à mémoriser des portions de leurs données d'entraînement et à émettre des séquences textuelles verbatim. Lorsque les sources sous-jacentes sont sensibles ou protégées par le droit d'auteur, une telle reproduction soulève des questions de consentement et de rémunération pour les créateurs, ainsi que des risques de conformité pour les développeurs. Nous proposons Anchored Decoding (Décodage Ancré), une méthode plug-and-play utilisable lors de l'inférence pour supprimer la copie verbatim : elle permet de décoder à partir de tout LM risqué entraîné sur des données sous licences mixtes en maintenant la génération à une proximité bornée d'un LM sûr entraîné de manière permissive. Anchored Decoding alloue de manière adaptative un budget d'information choisi par l'utilisateur sur la trajectoire de génération et applique des contraintes par étape qui produisent une garantie au niveau de la séquence, permettant un compromis ajustable entre risque et utilité. Pour rendre Anchored Decoding utile en pratique, nous présentons un nouveau modèle sûr entraîné de manière permissive (TinyComma 1.8B), ainsi qu'Anchored_{Byte} Decoding (Décodage Ancré au niveau des octets), une variante de notre méthode au niveau des octets qui permet une fusion inter-vocabulaire via le cadre ByteSampler (Hayase et al., 2025). Nous évaluons nos méthodes sur six paires de modèles via des évaluations longues du risque de copyright et de l'utilité. Anchored et Anchored_{Byte} Decoding définissent une nouvelle frontière de Pareto, préservant une fluidité et une factualité quasi-originales tout en éliminant jusqu'à 75 % de l'écart de copie mesurable (moyenné sur six métriques de copie) entre le modèle risqué de référence et une référence sûre, avec une surcharge d'inférence modeste.
English
Modern language models (LMs) tend to memorize portions of their training data and emit verbatim spans. When the underlying sources are sensitive or copyright-protected, such reproduction raises issues of consent and compensation for creators and compliance risks for developers. We propose Anchored Decoding, a plug-and-play inference-time method for suppressing verbatim copying: it enables decoding from any risky LM trained on mixed-license data by keeping generation in bounded proximity to a permissively trained safe LM. Anchored Decoding adaptively allocates a user-chosen information budget over the generation trajectory and enforces per-step constraints that yield a sequence-level guarantee, enabling a tunable risk-utility trade-off. To make Anchored Decoding practically useful, we introduce a new permissively trained safe model (TinyComma 1.8B), as well as Anchored_{Byte} Decoding, a byte-level variant of our method that enables cross-vocabulary fusion via the ByteSampler framework (Hayase et al., 2025). We evaluate our methods across six model pairs on long-form evaluations of copyright risk and utility. Anchored and Anchored_{Byte} Decoding define a new Pareto frontier, preserving near-original fluency and factuality while eliminating up to 75% of the measurable copying gap (averaged over six copying metrics) between the risky baseline and a safe reference, at a modest inference overhead.