Decodifica Ancorata: Ridurre in Modo Provabile il Rischio di Copyright per Qualsiasi Modello Linguistico

Abstract

I moderni modelli linguistici (LM) tendono a memorizzare porzioni dei loro dati di addestramento ed emettere sequenze verbatim. Quando le fonti sottostanti sono sensibili o protette da copyright, tale riproduzione solleva questioni di consenso e compensazione per i creatori e rischi di conformità per gli sviluppatori. Proponiamo Anchored Decoding, un metodo plug-and-play applicabile durante l'inferenza per sopprimere la copiatura verbatim: esso consente di decodificare da qualsiasi LM rischioso addestrato su dati con licenze miste mantenendo la generazione in prossimità vincolata di un LM sicuro addestrato su licenze permissive. Anchored Decoding alloca in modo adattivo un budget informativo scelto dall'utente lungo la traiettoria di generazione e applica vincoli per ogni passo che producono una garanzia a livello di sequenza, consentendo un compromesso regolabile tra rischio e utilità. Per rendere Anchored Decoding praticamente utile, introduciamo un nuovo modello sicuro addestrato in modo permissivo (TinyComma 1.8B), nonché Anchored_{Byte} Decoding, una variante a livello di byte del nostro metodo che consente la fusione cross-vocabolario tramite il framework ByteSampler (Hayase et al., 2025). Valutiamo i nostri metodi su sei coppie di modelli mediante valutazioni long-form del rischio di copyright e dell'utilità. Anchored e Anchored_{Byte} Decoding definiscono una nuova frontiera di Pareto, preservando una fluidità e factualità quasi originali eliminando fino al 75% del divario misurabile di copiatura (mediato su sei metriche di copia) tra la baseline rischiosa e un riferimento sicuro, con un modesto overhead di inferenza.

English

Modern language models (LMs) tend to memorize portions of their training data and emit verbatim spans. When the underlying sources are sensitive or copyright-protected, such reproduction raises issues of consent and compensation for creators and compliance risks for developers. We propose Anchored Decoding, a plug-and-play inference-time method for suppressing verbatim copying: it enables decoding from any risky LM trained on mixed-license data by keeping generation in bounded proximity to a permissively trained safe LM. Anchored Decoding adaptively allocates a user-chosen information budget over the generation trajectory and enforces per-step constraints that yield a sequence-level guarantee, enabling a tunable risk-utility trade-off. To make Anchored Decoding practically useful, we introduce a new permissively trained safe model (TinyComma 1.8B), as well as Anchored_{Byte} Decoding, a byte-level variant of our method that enables cross-vocabulary fusion via the ByteSampler framework (Hayase et al., 2025). We evaluate our methods across six model pairs on long-form evaluations of copyright risk and utility. Anchored and Anchored_{Byte} Decoding define a new Pareto frontier, preserving near-original fluency and factuality while eliminating up to 75% of the measurable copying gap (averaged over six copying metrics) between the risky baseline and a safe reference, at a modest inference overhead.

Decodifica Ancorata: Ridurre in Modo Provabile il Rischio di Copyright per Qualsiasi Modello Linguistico

Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model

Abstract

Support