Verankerd Decoderen: Aantoonbare Vermindering van Auteursrechtelijk Risico voor Elk Taalmodel

Samenvatting

Moderne taalmodelen (TM's) hebben de neiging om delen van hun trainingsdata te memoriseren en letterlijke fragmenten uit te sturen. Wanneer de onderliggende bronnen gevoelig of auteursrechtelijk beschermd zijn, roept een dergelijke reproductie kwesties op van toestemming en compensatie voor makers en compliancerisico's voor ontwikkelaars. Wij stellen *Anchored Decoding* voor, een plug-and-play methode tijdens de inferentiefase om letterlijke kopieeracties te onderdrukken: het maakt decodering mogelijk vanuit elk risicovol TM dat is getraind op data met gemengde licenties, door de gegenereerde tekst binnen een begrensde nabijheid van een veilig TM te houden dat onder een permissieve licentie is getraind. *Anchored Decoding* wijst adaptief een door de gebruiker gekozen informatiebudget toe over het generatietraject en handhaaft beperkingen per stap die een garantie op sequentieniveau opleveren, waardoor een afstemmbare risico-nuttigheid trade-off mogelijk wordt. Om *Anchored Decoding* praktisch bruikbaar te maken, introduceren we een nieuw, onder een permissieve licentie getraind veilig model (TinyComma 1.8B), evenals *Anchored_{Byte} Decoding*, een byte-level variant van onze methode die kruis-vocabularium fusie mogelijk maakt via het ByteSampler-framework (Hayase et al., 2025). We evalueren onze methoden over zes modelparen op lange-termijn evaluaties van auteursrechtelijk risico en nuttigheid. *Anchored* en *Anchored_{Byte} Decoding* definiëren een nieuwe Pareto-frontier, waarbij ze bijna de oorspronkelijke vlotheid en feitelijkheid behouden terwijl ze tot 75% van de meetbare kopieerkloof (gemiddeld over zes kopieermetrieken) tussen de risicovolle baseline en een veilige referentie elimineren, tegen een bescheiden inferentie-overhead.

English

Modern language models (LMs) tend to memorize portions of their training data and emit verbatim spans. When the underlying sources are sensitive or copyright-protected, such reproduction raises issues of consent and compensation for creators and compliance risks for developers. We propose Anchored Decoding, a plug-and-play inference-time method for suppressing verbatim copying: it enables decoding from any risky LM trained on mixed-license data by keeping generation in bounded proximity to a permissively trained safe LM. Anchored Decoding adaptively allocates a user-chosen information budget over the generation trajectory and enforces per-step constraints that yield a sequence-level guarantee, enabling a tunable risk-utility trade-off. To make Anchored Decoding practically useful, we introduce a new permissively trained safe model (TinyComma 1.8B), as well as Anchored_{Byte} Decoding, a byte-level variant of our method that enables cross-vocabulary fusion via the ByteSampler framework (Hayase et al., 2025). We evaluate our methods across six model pairs on long-form evaluations of copyright risk and utility. Anchored and Anchored_{Byte} Decoding define a new Pareto frontier, preserving near-original fluency and factuality while eliminating up to 75% of the measurable copying gap (averaged over six copying metrics) between the risky baseline and a safe reference, at a modest inference overhead.

Verankerd Decoderen: Aantoonbare Vermindering van Auteursrechtelijk Risico voor Elk Taalmodel

Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model

Samenvatting

Support