Decodificación Anclada: Reducción Comprobable del Riesgo de Copyright para Cualquier Modelo de Lenguaje
Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model
February 6, 2026
Autores: Jacqueline He, Jonathan Hayase, Wen-tau Yih, Sewoong Oh, Luke Zettlemoyer, Pang Wei Koh
cs.AI
Resumen
Los modelos lingüísticos (LM) modernos tienden a memorizar porciones de sus datos de entrenamiento y emiten fragmentos textuales de forma literal. Cuando las fuentes subyacentes son sensibles o están protegidas por derechos de autor, dicha reproducción plantea problemas de consentimiento y compensación para los creadores, así como riesgos de cumplimiento normativo para los desarrolladores. Proponemos Anchored Decoding (Decodificación Anclada), un método plug-and-play aplicable durante la inferencia para suprimir la copia literal: permite la decodificación desde cualquier LM riesgoso entrenado con datos de licencias mixtas, manteniendo la generación dentro de una proximidad acotada respecto a un LM seguro entrenado de forma permisiva. Anchored Decoding asigna de manera adaptativa un presupuesto de información elegido por el usuario a lo largo de la trayectoria de generación y aplica restricciones por paso que producen una garantía a nivel de secuencia, permitiendo un balance ajustable entre riesgo y utilidad. Para hacer que Anchored Decoding sea práctico, presentamos un nuevo modelo seguro entrenado permisivamente (TinyComma 1.8B), así como Anchored_{Byte} Decoding (Decodificación Anclada a Nivel de Byte), una variante de nuestro método que permite la fusión transversal de vocabularios mediante el framework ByteSampler (Hayase et al., 2025). Evaluamos nuestros métodos en seis pares de modelos mediante evaluaciones de riesgo de copyright y utilidad en generación de texto extenso. Anchored y Anchored_{Byte} Decoding definen una nueva frontera de Pareto, preservando una fluidez y factualidad casi originales mientras eliminan hasta el 75% de la brecha medible de copia (promediada sobre seis métricas de copia) entre la línea base riesgosa y una referencia segura, con una sobrecarga de inferencia modesta.
English
Modern language models (LMs) tend to memorize portions of their training data and emit verbatim spans. When the underlying sources are sensitive or copyright-protected, such reproduction raises issues of consent and compensation for creators and compliance risks for developers. We propose Anchored Decoding, a plug-and-play inference-time method for suppressing verbatim copying: it enables decoding from any risky LM trained on mixed-license data by keeping generation in bounded proximity to a permissively trained safe LM. Anchored Decoding adaptively allocates a user-chosen information budget over the generation trajectory and enforces per-step constraints that yield a sequence-level guarantee, enabling a tunable risk-utility trade-off. To make Anchored Decoding practically useful, we introduce a new permissively trained safe model (TinyComma 1.8B), as well as Anchored_{Byte} Decoding, a byte-level variant of our method that enables cross-vocabulary fusion via the ByteSampler framework (Hayase et al., 2025). We evaluate our methods across six model pairs on long-form evaluations of copyright risk and utility. Anchored and Anchored_{Byte} Decoding define a new Pareto frontier, preserving near-original fluency and factuality while eliminating up to 75% of the measurable copying gap (averaged over six copying metrics) between the risky baseline and a safe reference, at a modest inference overhead.