Decodagem Ancorada: Reduzindo Comprovadamente o Risco de Direitos Autorais para Qualquer Modelo de Linguagem

Resumo

Os modelos linguístticos (LMs) modernos tendem a memorizar porções dos seus dados de treinamento e emitir trechos verbatim. Quando as fontes subjacentes são sensíveis ou protegidas por direitos autorais, tal reprodução levanta questões de consentimento e compensação para os criadores e riscos de conformidade para os desenvolvedores. Propomos o Decodificação Ancorada (Anchored Decoding), um método de inferência "plug-and-play" para suprimir a cópia textual: ele permite a decodificação de qualquer LM arriscado treinado em dados de licença mista, mantendo a geração em proximidade limitada a um LM seguro treinado de forma permissiva. A Decodificação Ancorada aloca adaptativamente um orçamento de informação escolhido pelo usuário ao longo da trajetória de geração e aplica restrições por etapa que produzem uma garantia a nível de sequência, permitindo um compromisso ajustável entre risco e utilidade. Para tornar a Decodificação Ancorada praticamente útil, introduzimos um novo modelo seguro treinado de forma permissiva (TinyComma 1.8B), bem como a Decodificação Ancorada_{Byte} (Anchored_{Byte} Decoding), uma variante do nosso método a nível de byte que permite a fusão transversal de vocabulário através da framework ByteSampler (Hayase et al., 2025). Avaliamos os nossos métodos em seis pares de modelos em avaliações de longo prazo de risco de direitos autorais e utilidade. A Decodificação Ancorada e a Decodificação Ancorada_{Byte} definem uma nova fronteira de Pareto, preservando fluência e factualidade próximas da original enquanto eliminam até 75% do gap mensurável de cópia (média de seis métricas de cópia) entre a linha de base de risco e uma referência segura, com uma sobrecarga de inferência modesta.

English

Modern language models (LMs) tend to memorize portions of their training data and emit verbatim spans. When the underlying sources are sensitive or copyright-protected, such reproduction raises issues of consent and compensation for creators and compliance risks for developers. We propose Anchored Decoding, a plug-and-play inference-time method for suppressing verbatim copying: it enables decoding from any risky LM trained on mixed-license data by keeping generation in bounded proximity to a permissively trained safe LM. Anchored Decoding adaptively allocates a user-chosen information budget over the generation trajectory and enforces per-step constraints that yield a sequence-level guarantee, enabling a tunable risk-utility trade-off. To make Anchored Decoding practically useful, we introduce a new permissively trained safe model (TinyComma 1.8B), as well as Anchored_{Byte} Decoding, a byte-level variant of our method that enables cross-vocabulary fusion via the ByteSampler framework (Hayase et al., 2025). We evaluate our methods across six model pairs on long-form evaluations of copyright risk and utility. Anchored and Anchored_{Byte} Decoding define a new Pareto frontier, preserving near-original fluency and factuality while eliminating up to 75% of the measurable copying gap (averaged over six copying metrics) between the risky baseline and a safe reference, at a modest inference overhead.

Decodagem Ancorada: Reduzindo Comprovadamente o Risco de Direitos Autorais para Qualquer Modelo de Linguagem

Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model

Resumo

Support